11.8
В некоррелированном наборе данных для заданного значения x наилучшим прогнозируемым значением y является среднее.
Если переменные имеют линейную корреляцию, значение y можно предсказать, подставив значение x в уравнение регрессии.
Вертикальное расстояние между прогнозируемым значением y и средним значением выборки, y-бар, известно как объясненное отклонение. Взаимосвязь между двумя переменными может объяснить это отклонение.
Вертикальное расстояние между точкой данных и прогнозируемым значением y известно как необъяснимое отклонение или остаток. Связь между переменными не может объяснить это отклонение; Это может быть связано только со случайностью или с участием других переменных.
Сумма необъяснимых и объяснимых отклонений дает общее отклонение.
Возведение отклонений в квадрат и суммирование их для всех точек данных дает количество необъяснимых, объясненных и общих вариаций.
Отношение объясненного изменения к общему изменению является значением r-квадрат, также известным как коэффициент детерминации. Он указывает на долю вариации в значении y, которую может объяснить линия регрессии.
Важной характеристикой любого набора данных является его вариация. В некоторых наборах данных значения данных сконцентрированы близко к среднему значению; в других наборах данных значения более широко разбросаны от среднего значения. Наиболее распространенной мерой вариации или разброса является стандартное отклонение, которое представляет собой квадратный корень из дисперсии.
Когда независимые и зависимые переменные отображаются на диаграмме рассеяния, наклон линии представляет собой значение, которое описывает скорость изменения между двумя переменными. Наклон показывает, как в среднем изменяется зависимая переменная (y) на каждую единицу увеличения независимой переменной (x). Пересечение оси Y описывает зависимую переменную, когда независимая переменная равна нулю. Линию регрессии или линию наилучшего соответствия можно нарисовать на диаграмме рассеяния и использовать для прогнозирования результатов для переменных x и y в заданном наборе данных или выборочных данных.
Разница между наблюдаемым значением выборки y и прогнозируемым значением (Equation 1 из уравнения регрессии) называется необъяснимым отклонением. В то время как разница между прогнозируемым значением и выборочным средним y̅ называется объясненным отклонением. Разница между наблюдаемым значением y и выборочным средним y̅ представляет собой общее отклонение.
Если сложить квадраты объясненных отклонений для всех точек данных, мы получим объясненное отклонение. Точно так же, если мы сложим квадраты необъяснимых отклонений для всех точек данных, мы получим необъяснимое изменение. Кроме того, если мы сложим квадраты общих отклонений для всех точек данных, мы получим общую вариацию. Разделив объясненную вариацию на общее отклонение, мы получаем значение коэффициента детерминации r^2, который представляет собой процент изменения зависимой переменной y, который можно объяснить изменением независимой переменной x с помощью линии регрессии.
Адаптированная версия текста Openstax, Introductory Statistics, Section 12, Linear Regression and Correlation.
В некоррелированном наборе данных для заданного значения x наилучшим прогнозируемым значением y является среднее.
Если переменные имеют линейную корреляцию, значение y можно предсказать, подставив значение x в уравнение регрессии.
Вертикальное расстояние между прогнозируемым значением y и средним значением выборки, y-бар, известно как объясненное отклонение. Взаимосвязь между двумя переменными может объяснить это отклонение.
Вертикальное расстояние между точкой данных и прогнозируемым значением y известно как необъяснимое отклонение или остаток. Связь между переменными не может объяснить это отклонение; Это может быть связано только со случайностью или с участием других переменных.
Сумма необъяснимых и объяснимых отклонений дает общее отклонение.
Возведение отклонений в квадрат и суммирование их для всех точек данных дает количество необъяснимых, объясненных и общих вариаций.
Отношение объясненного изменения к общему изменению является значением r-квадрат, также известным как коэффициент детерминации. Он указывает на долю вариации в значении y, которую может объяснить линия регрессии.
From Chapter 11:
Now Playing
Correlation and Regression
6.5K Views
Correlation and Regression
12.7K Views
Correlation and Regression
8.0K Views
Correlation and Regression
6.7K Views
Correlation and Regression
7.7K Views
Correlation and Regression
5.4K Views
Correlation and Regression
7.4K Views
Correlation and Regression
4.9K Views
Correlation and Regression
2.6K Views
Correlation and Regression
3.6K Views