Важной характеристикой любого набора данных является изменчивость данных. В некоторых наборах данных значения данных сосредоточены близко к среднему значению; В других наборах данных значения данных более сильно отличаются от среднего значения. Наиболее распространенной мерой вариации, или спреда, является стандартное отклонение, которое представляет собой квадратный корень из дисперсии.
Когда независимые и зависимые переменные отображаются на точечной диаграмме, наклон линии является значением, описывающим скорость изменения между двумя переменными. Наклон говорит нам, как зависимая переменная (y) изменяется при каждом увеличении независимой переменной (x) в среднем на единицу единицы. Y-точка описывает зависимую переменную, когда независимая переменная равна нулю. Линия регрессии, или линия наилучшего соответствия, может быть нарисована на точечной диаграмме и использована для прогнозирования результатов для переменных x и y в заданном наборе данных или выборке данных.
Разница между наблюдаемым значением выборки, y, и предсказанным значением, от уравнения регрессии, известна как необъяснимое отклонение. В то время как разница между предсказанным значением
и средним значением выборки, y̅, называется объясненным отклонением. Разница между наблюдаемым значением y и средним значением выборки y̅ является общим отклонением.
Если сложить квадраты объясненных отклонений для всех точек данных, мы получим объяснимое отклонение. Таким же образом, если мы сложим квадраты необъяснимых отклонений для всех точек данных, мы получим необъяснимое изменение. Кроме того, если мы сложим квадраты общих отклонений для всех точек данных, мы получим общую вариацию. Разделив объясненное изменение на общее отклонение, мы получим значение коэффициента детерминации, r2, который представляет собой процент изменения зависимой переменной y, которое можно объяснить изменением независимой переменной x с помощью линии регрессии.
Этот текст адаптирован из Openstax, Вводная статистика, раздел 12, Линейная регрессия и корреляция.
В некоррелированном наборе данных для заданного значения x наилучшим прогнозируемым значением y является среднее.
Если переменные имеют линейную корреляцию, значение y можно предсказать, подставив значение x в уравнение регрессии.
Вертикальное расстояние между прогнозируемым значением y и средним значением выборки, y-бар, известно как объясненное отклонение. Взаимосвязь между двумя переменными может объяснить это отклонение.
Вертикальное расстояние между точкой данных и прогнозируемым значением y известно как необъяснимое отклонение или остаток. Связь между переменными не может объяснить это отклонение; Это может быть связано только со случайностью или с участием других переменных.
Сумма необъяснимых и объяснимых отклонений дает общее отклонение.
Возведение отклонений в квадрат и суммирование их для всех точек данных дает количество необъяснимых, объясненных и общих вариаций.
Отношение объясненного изменения к общему изменению является значением r-квадрат, также известным как коэффициент детерминации. Он указывает на долю вариации в значении y, которую может объяснить линия регрессии.
Related Videos
Correlation and Regression
11.7K Просмотры
Correlation and Regression
6.1K Просмотры
Correlation and Regression
5.9K Просмотры
Correlation and Regression
5.7K Просмотры
Correlation and Regression
4.0K Просмотры
Correlation and Regression
7.3K Просмотры
Correlation and Regression
4.6K Просмотры
Correlation and Regression
6.8K Просмотры
Correlation and Regression
2.2K Просмотры
Correlation and Regression
3.0K Просмотры