5.8: 이상값이란 무엇입니까?

What Are Outliers?
JoVE Core
Statistics
This content is Free Access.
JoVE Core Statistics
What Are Outliers?
Please note that all translations are automatically generated. Click here for the English version.

3,644 Views

01:12 min
April 30, 2023

Overview

이상치는 최소 제곱선에서 멀리 떨어져 있는 관측된 데이터 점입니다. 그들은 특이한 값을 가지고 있으며 주의 깊게 검사해야 합니다. 이상치는 잘못된 데이터로 인해 발생할 수 있지만, 다른 경우에는 연구 중인 모집단에 대한 중요한 정보를 보유할 수 있으므로 데이터에 포함되어야 합니다. 따라서 데이터 포인트가 이상치가 되는 원인을 조사하는 것이 중요합니다.

z 점수는 이상치 또는 비정상적인 값을 찾는 데 사용됩니다. -2 및 +2를 초과하는 값은 비정상적인 값 또는 이상값으로 간주되며 다른 데이터 값과는 거리가 멀다는 점에 유의해야 합니다.

이상값 식별하기

이상값은 산점도 그래프와 최적 맞춤선 그래프를 보고 추측할 수 있습니다. 그러나 이상치로 간주될 수 있도록 점이 얼마나 멀리 떨어져 있어야 하는지 이해하기 위한 지침이 필요합니다. 대략적으로 말하자면, 최적선보다 높거나 낮은 2 표준 편차를 초과하는 모든 점을 이상치로 표시할 수 있습니다. 사용되는 표준 편차는 잔차 또는 오차의 표준 편차입니다.

산점도에서 최적 선의 위와 아래에 두 개의 표준 편차가 있는 추가 선 쌍을 그려 이 작업을 시각적으로 수행할 수 있습니다. 이 추가 선 쌍을 벗어난 모든 데이터 포인트는 잠재적 이상값으로 플래그가 지정됩니다. 또한 각 잔차를 계산하고 표준 편차의 두 배와 비교하여 이상값을 수치로 식별할 수 있습니다.

이 텍스트는 <a href="https://openstax.org/books/statistics/pages/12-5-outliers"에서 발췌한 것입니다>Openstax, Introductory Statistics, Section 12.5 Outliers

Transcript

이상치(outliers)는 데이터 세트에서 다른 값보다 눈에 띄는 하나 이상의 값입니다.

예를 들어, 최고의 경주마 5마리는 평균 랩 타임에 따라 결정됩니다. 비정상적인 랩 타임은 너무 좋거나 너무 나쁘면 이상치로 간주됩니다.

그러나 대규모 데이터 세트에서 이상값을 어떻게 식별할 수 있습니까?

한 가지 방법은 사분위수 범위를 찾는 것입니다. IQR의 1.5배보다 크거나 작은 값은 이상값으로 간주됩니다.

두 번째 방법은 z 점수를 사용합니다. 마이너스 2 및 플러스 2 z 점수 내의 값은 일반적으로 데이터 값의 약 95%를 포함하는 일반적인 값으로 간주됩니다. 이 범위를 벗어나는 모든 항목은 이상치입니다.

세 번째 방법은 상자 그림을 사용하는 것입니다. 상자 그림의 수염 밖에 있는 모든 데이터 점은 이상치로 간주됩니다.

특이치는 데이터의 평균, 표준 편차 및 범위에 영향을 줄 수 있지만 일부 특이치는 표본 통계량에 영향을 주지 않고 무시할 수 있습니다. 따라서 계산에서 이상값을 고려하거나 잘라낼 때 신중하게 고려해야 합니다.

Key Terms and definitions​

Learning Objectives

Questions that this video will help you answer

This video is also useful for