11.8: Вариация

Variation
JoVE Core
Statistics
A subscription to JoVE is required to view this content.  Sign in or start your free trial.
JoVE Core Statistics
Variation
Please note that all translations are automatically generated. Click here for the English version.

6,762 Views

01:19 min
April 30, 2023

Overview

Важной характеристикой любого набора данных является изменчивость данных. В некоторых наборах данных значения данных сосредоточены близко к среднему значению; В других наборах данных значения данных более сильно отличаются от среднего значения. Наиболее распространенной мерой вариации, или спреда, является стандартное отклонение, которое представляет собой квадратный корень из дисперсии.

Когда независимые и зависимые переменные отображаются на точечной диаграмме, наклон линии является значением, описывающим скорость изменения между двумя переменными. Наклон говорит нам, как зависимая переменная (y) изменяется при каждом увеличении независимой переменной (x) в среднем на единицу единицы. Y-точка описывает зависимую переменную, когда независимая переменная равна нулю. Линия регрессии, или линия наилучшего соответствия, может быть нарисована на точечной диаграмме и использована для прогнозирования результатов для переменных x и y в заданном наборе данных или выборке данных.

Разница между наблюдаемым значением выборки, y, и предсказанным значением,Equation1 от уравнения регрессии, известна как необъяснимое отклонение. В то время как разница между предсказанным значением и средним значением выборки, y̅, называется объясненным отклонением. Разница между наблюдаемым значением y и средним значением выборки y̅ является общим отклонением.

Если сложить квадраты объясненных отклонений для всех точек данных, мы получим объяснимое отклонение. Таким же образом, если мы сложим квадраты необъяснимых отклонений для всех точек данных, мы получим необъяснимое изменение. Кроме того, если мы сложим квадраты общих отклонений для всех точек данных, мы получим общую вариацию. Разделив объясненное изменение на общее отклонение, мы получим значение коэффициента детерминации, r2, который представляет собой процент изменения зависимой переменной y, которое можно объяснить изменением независимой переменной x с помощью линии регрессии.

Этот текст адаптирован из Openstax, Вводная статистика, раздел 12, Линейная регрессия и корреляция.

Transcript

В некоррелированном наборе данных для заданного значения x наилучшим прогнозируемым значением y является среднее.

Если переменные имеют линейную корреляцию, значение y можно предсказать, подставив значение x в уравнение регрессии.

Вертикальное расстояние между прогнозируемым значением y и средним значением выборки, y-бар, известно как объясненное отклонение. Взаимосвязь между двумя переменными может объяснить это отклонение.

Вертикальное расстояние между точкой данных и прогнозируемым значением y известно как необъяснимое отклонение или остаток. Связь между переменными не может объяснить это отклонение; Это может быть связано только со случайностью или с участием других переменных.

Сумма необъяснимых и объяснимых отклонений дает общее отклонение.

Возведение отклонений в квадрат и суммирование их для всех точек данных дает количество необъяснимых, объясненных и общих вариаций.

Отношение объясненного изменения к общему изменению является значением r-квадрат, также известным как коэффициент детерминации. Он указывает на долю вариации в значении y, которую может объяснить линия регрессии.

Key Terms and definitions​

  • Variation - The spread or deviation of the data values in relation to the mean of the data set.
  • Standard Deviation - The most common measure of variation, and equal to the square root of variance.
  • Regression Line - A predictive line indicating the relation between dependent and independent variables in a scatter plot.
  • Explained and Unexplained Variation - The parts of total variation attributable to and not attributable to the Regression Line, respectively.
  • Coefficient of Determination - Represents percentage of variation in dependent variable that can be explained using the Regression line.

Learning Objectives

  • Define Variation – Understand the spread in a given dataset (e.g., variation)
  • Contrast Explained and Unexplained Variation – Understand the different components of total variation (e.g., Explained and Unexplained Variation).
  • Explore Regression Line – Understanding its role in predicting values (e.g., Regression Line).
  • Explain Coefficient of Determination - Understanding what it represents.
  • Apply in Context – Understand how these concepts come together when analyzing a data set.

Questions that this video will help you answer

  • What is variation and how does it relate to standard deviation?
  • What's the role and significance of Regression Line in a scatter plot?
  • What is the coefficient of determination, and what does it represent?

This video is also useful for

  • Students – Understand how these key terms can help comprehend dataset characteristics
  • Educators – Provides a clearer framework for the teaching of the topic
  • Researchers – Crucial elements for a much broader scientific study or methodology
  • Science Enthusiasts – Offers insights and understandings that can satisfy curiosity towards these topics.