11.6: Свойство остатков и наименьших квадратов

Residuals and Least-Squares Property
JoVE Core
Statistics
A subscription to JoVE is required to view this content.  Sign in or start your free trial.
JoVE Core Statistics
Residuals and Least-Squares Property
Please note that all translations are automatically generated. Click here for the English version.

7,326 Views

01:11 min
April 30, 2023

Overview

Расстояние по вертикали между фактическим значением y и расчетным значением y. Другими словами, он измеряет вертикальное расстояние между фактической точкой данных и прогнозируемой точкой на линии Equation1

Если наблюдаемая точка данных лежит над линией, то невязка положительна, и линия недооценивает фактическое значение данных для y. Если наблюдаемая точка данных лежит ниже линии, то невязка отрицательна, и линия завышает фактическое значение данных для y.

Процесс подгонки линии наилучшего соответствия называется линейной регрессией. Идея поиска наиболее подходящей линии основана на предположении, что данные разбросаны по прямой линии. Критерием линии наилучшего соответствия является то, что сумма квадратов ошибок (SSE) минимизирована, то есть сделана как можно меньше. Любая другая линия, которую вы можете выбрать, будет иметь более высокий SSE, чем наиболее подходящая линия. Эта линия наилучшего соответствия называется линией регрессии по методу наименьших квадратов.

В линии регрессии квадрат невязок можно визуализировать, нарисовав квадратные площади с использованием исходной точки. Сумма площадей всех этих квадратов должна быть минимальной, чтобы линия регрессии была линией наилучшего соответствия. Это называется свойством наименьших квадратов.

Этот текст адаптирован из Opestax, Вводная статистика, раздел 12.3 Уравнение регрессии.

Transcript

Рассмотрим еженедельные данные о количестве положительных результатов по сравнению с тестами на COVID во время пандемии. Линия регрессии, нарисованная на точечной диаграмме, показывает линейный тренд между переменными.

Является ли эта линия регрессии наиболее подходящей, определяется с помощью невязок – вертикальных расстояний исходных точек данных от прогнозируемых значений на линии регрессии.

Например, для точки данных с координатами 820 и 48 прогнозируемое значение можно найти, подставив x на 820 в уравнении регрессии.

Разница между наблюдаемыми и прогнозируемыми значениями дает остаточную стоимость. Аналогичным образом вычисляются невязки для остальных точек данных.

Квадрат этих невязок можно визуализировать, нарисовав квадратные области с использованием исходной точки.

Сумма площадей всех этих квадратов должна быть минимальной, чтобы линия регрессии была линией наилучшего соответствия. Это называется свойством наименьших квадратов.

Для любой другой прямой линия сумма площадей больше, поэтому не может считаться наиболее подходящей линией.

Key Terms and definitions​

Learning Objectives

Questions that this video will help you answer

This video is also useful for