11.6:
Свойство остатков и наименьших квадратов
Расстояние по вертикали между фактическим значением y и расчетным значением y. Другими словами, он измеряет вертикальное расстояние между фактической точкой данных и прогнозируемой точкой на линии
Если наблюдаемая точка данных лежит над линией, то невязка положительна, и линия недооценивает фактическое значение данных для y. Если наблюдаемая точка данных лежит ниже линии, то невязка отрицательна, и линия завышает фактическое значение данных для y.
Процесс подгонки линии наилучшего соответствия называется линейной регрессией. Идея поиска наиболее подходящей линии основана на предположении, что данные разбросаны по прямой линии. Критерием линии наилучшего соответствия является то, что сумма квадратов ошибок (SSE) минимизирована, то есть сделана как можно меньше. Любая другая линия, которую вы можете выбрать, будет иметь более высокий SSE, чем наиболее подходящая линия. Эта линия наилучшего соответствия называется линией регрессии по методу наименьших квадратов.
В линии регрессии квадрат невязок можно визуализировать, нарисовав квадратные площади с использованием исходной точки. Сумма площадей всех этих квадратов должна быть минимальной, чтобы линия регрессии была линией наилучшего соответствия. Это называется свойством наименьших квадратов.
Этот текст адаптирован из Opestax, Вводная статистика, раздел 12.3 Уравнение регрессии.
Рассмотрим еженедельные данные о количестве положительных результатов по сравнению с тестами на COVID во время пандемии. Линия регрессии, нарисованная на точечной диаграмме, показывает линейный тренд между переменными.
Является ли эта линия регрессии наиболее подходящей, определяется с помощью невязок – вертикальных расстояний исходных точек данных от прогнозируемых значений на линии регрессии.
Например, для точки данных с координатами 820 и 48 прогнозируемое значение можно найти, подставив x на 820 в уравнении регрессии.
Разница между наблюдаемыми и прогнозируемыми значениями дает остаточную стоимость. Аналогичным образом вычисляются невязки для остальных точек данных.
Квадрат этих невязок можно визуализировать, нарисовав квадратные области с использованием исходной точки.
Сумма площадей всех этих квадратов должна быть минимальной, чтобы линия регрессии была линией наилучшего соответствия. Это называется свойством наименьших квадратов.
Для любой другой прямой линия сумма площадей больше, поэтому не может считаться наиболее подходящей линией.
Related Videos
Correlation and Regression
11.7K Просмотры
Correlation and Regression
6.1K Просмотры
Correlation and Regression
5.9K Просмотры
Correlation and Regression
5.7K Просмотры
Correlation and Regression
4.0K Просмотры
Correlation and Regression
7.3K Просмотры
Correlation and Regression
4.6K Просмотры
Correlation and Regression
6.8K Просмотры
Correlation and Regression
2.2K Просмотры
Correlation and Regression
3.0K Просмотры