11.5: Выбросы и влиятельные моменты

Outliers and Influential Points
JoVE Core
Statistics
A subscription to JoVE is required to view this content.  Sign in or start your free trial.
JoVE Core Statistics
Outliers and Influential Points
Please note that all translations are automatically generated. Click here for the English version.

4,030 Views

01:08 min
April 30, 2023

Overview

Выброс — это наблюдение за данными, которые не согласуются с остальными данными. Иногда его называют экстремальным значением. Когда вы строите график выброса, он будет казаться не соответствующим шаблону графика. Некоторые выбросы возникают из-за ошибок (например, запись 50 вместо 500), в то время как другие могут указывать на то, что происходит что-то необычное. Выбросы присутствуют далеко от линии наименьших квадратов в вертикальном направлении. Они имеют большие «ошибки», где «ошибка» или невязка — это расстояние по вертикали от линии до точки.

Выбросы нуждаются в тщательном изучении. Иногда, по тем или иным причинам, их не стоит включать в анализ данных. Выброс может быть результатом ошибочных данных. В других случаях выброс может содержать ценную информацию об изучаемой популяции и должен оставаться включенным в данные. Ключ в том, чтобы тщательно изучить, что делает точку данных выбросом.

Помимо выбросов, выборка может содержать одну или несколько точек, которые называются влиятельными точками. Влиятельные точки — это наблюдаемые точки данных, которые находятся далеко от других наблюдаемых точек данных в горизонтальном направлении. Эти точки могут оказывать существенное влияние на наклон линии регрессии. Чтобы определить влиятельную точку, можно удалить ее из набора данных и посмотреть, существенно ли изменился наклон линии регрессии.

Компьютеры и многие калькуляторы могут быть использованы для определения выбросов из данных. Компьютерные выходные данные для регрессионного анализа часто выявляют как выбросы, так и влиятельные точки, чтобы вы могли их изучить.

Этот текст адаптирован из Openstax, Вводная статистика, раздел 12.6 Выбросы

Transcript

Рассмотрим точечную диаграмму годового дохода в зависимости от количества лет обучения в школе, снабженную линией регрессии.

Один человек, получивший всего несколько лет школьного образования, имеет исключительно высокий доход по сравнению с другими.

Такая точка данных, которая не следует за трендом и находится далеко от линии регрессии в вертикальном направлении, называется выбросом.

Количественно выбросы могут быть идентифицированы с помощью остатков, которые представляют собой разницу между наблюдаемым значением y точки данных и значением y, прогнозируемым из уравнения регрессии.

Теперь стандартное отклонение невязки вычисляется по ее формуле.

Как правило, точки данных, расположенные по крайней мере на два остаточных стандартных отклонения выше и ниже линии регрессии, помечаются как потенциальные выбросы.

Кроме того, наборы данных также могут иметь важные моменты. Эти точки расположены горизонтально, вдали от остальных точек. Добавление или удаление влиятельных точек существенно изменяет линию регрессии.

Key Terms and definitions​

Learning Objectives

Questions that this video will help you answer

This video is also useful for