Выброс — это наблюдение за данными, которые не согласуются с остальными данными. Иногда его называют экстремальным значением. Когда вы строите график выброса, он будет казаться не соответствующим шаблону графика. Некоторые выбросы возникают из-за ошибок (например, запись 50 вместо 500), в то время как другие могут указывать на то, что происходит что-то необычное. Выбросы присутствуют далеко от линии наименьших квадратов в вертикальном направлении. Они имеют большие «ошибки», где «ошибка» или невязка — это расстояние по вертикали от линии до точки.
Выбросы нуждаются в тщательном изучении. Иногда, по тем или иным причинам, их не стоит включать в анализ данных. Выброс может быть результатом ошибочных данных. В других случаях выброс может содержать ценную информацию об изучаемой популяции и должен оставаться включенным в данные. Ключ в том, чтобы тщательно изучить, что делает точку данных выбросом.
Помимо выбросов, выборка может содержать одну или несколько точек, которые называются влиятельными точками. Влиятельные точки — это наблюдаемые точки данных, которые находятся далеко от других наблюдаемых точек данных в горизонтальном направлении. Эти точки могут оказывать существенное влияние на наклон линии регрессии. Чтобы определить влиятельную точку, можно удалить ее из набора данных и посмотреть, существенно ли изменился наклон линии регрессии.
Компьютеры и многие калькуляторы могут быть использованы для определения выбросов из данных. Компьютерные выходные данные для регрессионного анализа часто выявляют как выбросы, так и влиятельные точки, чтобы вы могли их изучить.
Этот текст адаптирован из Openstax, Вводная статистика, раздел 12.6 Выбросы
Рассмотрим точечную диаграмму годового дохода в зависимости от количества лет обучения в школе, снабженную линией регрессии.
Один человек, получивший всего несколько лет школьного образования, имеет исключительно высокий доход по сравнению с другими.
Такая точка данных, которая не следует за трендом и находится далеко от линии регрессии в вертикальном направлении, называется выбросом.
Количественно выбросы могут быть идентифицированы с помощью остатков, которые представляют собой разницу между наблюдаемым значением y точки данных и значением y, прогнозируемым из уравнения регрессии.
Теперь стандартное отклонение невязки вычисляется по ее формуле.
Как правило, точки данных, расположенные по крайней мере на два остаточных стандартных отклонения выше и ниже линии регрессии, помечаются как потенциальные выбросы.
Кроме того, наборы данных также могут иметь важные моменты. Эти точки расположены горизонтально, вдали от остальных точек. Добавление или удаление влиятельных точек существенно изменяет линию регрессии.
Related Videos
Correlation and Regression
11.7K Просмотры
Correlation and Regression
6.1K Просмотры
Correlation and Regression
5.9K Просмотры
Correlation and Regression
5.7K Просмотры
Correlation and Regression
4.0K Просмотры
Correlation and Regression
7.3K Просмотры
Correlation and Regression
4.6K Просмотры
Correlation and Regression
6.8K Просмотры
Correlation and Regression
2.2K Просмотры
Correlation and Regression
3.0K Просмотры