이상치는 최소 제곱선에서 멀리 떨어져 있는 관측된 데이터 점입니다. 그들은 특이한 값을 가지고 있으며 주의 깊게 검사해야 합니다. 이상치는 잘못된 데이터로 인해 발생할 수 있지만, 다른 경우에는 연구 중인 모집단에 대한 중요한 정보를 보유할 수 있으므로 데이터에 포함되어야 합니다. 따라서 데이터 포인트가 이상치가 되는 원인을 조사하는 것이 중요합니다.
z 점수는 이상치 또는 비정상적인 값을 찾는 데 사용됩니다. -2 및 +2를 초과하는 값은 비정상적인 값 또는 이상값으로 간주되며 다른 데이터 값과는 거리가 멀다는 점에 유의해야 합니다.
이상값 식별하기
이상값은 산점도 그래프와 최적 맞춤선 그래프를 보고 추측할 수 있습니다. 그러나 이상치로 간주될 수 있도록 점이 얼마나 멀리 떨어져 있어야 하는지 이해하기 위한 지침이 필요합니다. 대략적으로 말하자면, 최적선보다 높거나 낮은 2 표준 편차를 초과하는 모든 점을 이상치로 표시할 수 있습니다. 사용되는 표준 편차는 잔차 또는 오차의 표준 편차입니다.
산점도에서 최적 선의 위와 아래에 두 개의 표준 편차가 있는 추가 선 쌍을 그려 이 작업을 시각적으로 수행할 수 있습니다. 이 추가 선 쌍을 벗어난 모든 데이터 포인트는 잠재적 이상값으로 플래그가 지정됩니다. 또한 각 잔차를 계산하고 표준 편차의 두 배와 비교하여 이상값을 수치로 식별할 수 있습니다.