11.5: 이상치와 영향력 있는 포인트

Outliers and Influential Points
JoVE Core
Statistics
A subscription to JoVE is required to view this content.  Sign in or start your free trial.
JoVE Core Statistics
Outliers and Influential Points
Please note that all translations are automatically generated. Click here for the English version.

4,030 Views

01:08 min
April 30, 2023

Overview

특이치는 데이터의 나머지 부분에 맞지 않는 데이터의 관측치입니다. 때로는 극한 값이라고 합니다. 이상값을 그래프로 표시하면 그래프의 패턴에 맞지 않는 것처럼 보입니다. 일부 이상값은 실수(예: 500 대신 500을 적음)로 인한 것이고 다른 이상값은 비정상적인 일이 발생하고 있음을 나타낼 수 있습니다. 이상값은 수직 방향의 최소 제곱선에서 멀리 떨어져 있습니다. 그들은 큰 “오류”를 가지고 있으며, 여기서 “오류” 또는 잔차는 선에서 점까지의 수직 거리입니다.

이상치는 면밀히 조사해야 합니다. 때로는 어떤 이유로든 데이터 분석에 포함되어서는 안 됩니다. 이상값은 잘못된 데이터의 결과일 수 있습니다. 다른 경우에는 특이치가 연구 중인 모집단에 대한 중요한 정보를 보유할 수 있으며 데이터에 포함된 상태로 유지되어야 합니다. 핵심은 데이터 포인트가 이상치가 되는 원인을 주의 깊게 조사하는 것입니다.

이상치 외에도 표본에는 영향력 있는 점이라고 하는 하나 또는 몇 개의 점이 포함될 수 있습니다. 영향력 있는 포인트는 관측된 다른 데이터 포인트에서 수평 방향으로 멀리 떨어져 있는 관측된 데이터 포인트입니다. 이러한 점은 회귀선의 기울기에 상당한 영향을 미칠 수 있습니다. 영향력 있는 점을 식별하기 위해 데이터 세트에서 해당 점을 제거하고 회귀선의 기울기가 크게 변경되었는지 확인할 수 있습니다.

컴퓨터와 많은 계산기를 사용하여 데이터에서 이상값을 식별할 수 있습니다. 회귀 분석을 위한 컴퓨터 출력은 종종 이상값과 영향력 있는 점을 모두 식별하여 검토할 수 있습니다.

이 텍스트는 Openstax, Introductory Statistics, Section 12.6 Outliers에서 발췌한 것입니다.

Transcript

연간 소득 대 학교 교육 기간의 산점도를 회귀선으로 조정한 것을 생각해 보십시오.

학교 교육을 몇 년밖에 받지 못한 한 사람은 다른 사람들에 비해 예외적으로 높은 수입을 가지고 있습니다.

추세를 따르지 않고 수직 방향으로 회귀선에서 멀리 떨어져 있는 이러한 데이터 포인트를 이상치라고 합니다.

정량적으로, 이상치는 잔차를 사용하여 식별할 수 있으며, 이는 데이터 포인트의 관찰된 y-값과 회귀 방정식에서 예측된 y-값 간의 차이입니다.

이제 잔차의 표준 편차는 공식을 사용하여 계산됩니다.

일반적으로 회귀선 위와 아래에 두 개 이상의 잔류 표준 편차에 위치한 데이터 포인트는 잠재적 이상치로 표시됩니다.

또한 데이터 세트에는 영향력 있는 포인트가 있을 수도 있습니다. 이러한 점은 나머지 점에서 멀리 떨어진 수평으로 있습니다. 영향력 있는 포인트의 추가 또는 제거는 회귀선을 크게 변경합니다.

Key Terms and definitions​

Learning Objectives

Questions that this video will help you answer

This video is also useful for