5.8: 什么是异常值?

What Are Outliers?
JoVE Core
Statistics
This content is Free Access.
JoVE Core Statistics
What Are Outliers?
Please note that all translations are automatically generated. Click here for the English version.

3,911 Views

01:12 min
April 30, 2023

Overview

异常值是远离最小二乘线的观测数据点。它们具有不寻常的值,需要仔细检查。尽管异常值可能由错误数据产生,但在其他时候,它可能包含有关所研究人群的宝贵信息,应包含在数据中。因此,检查导致数据点成为异常值的原因至关重要。

z 分数用于查找异常值或异常值。应该注意的是,任何超出 -2 和 +2 的值都被视为异常值或异常值,并且与其他数据值相距甚远。

识别异常值

我们可以通过查看散点图和最佳拟合线图来猜测异常值。但是,我们需要一个指南来了解一个点需要多远,这样它才能被视为异常值。作为粗略的经验法则,我们可以将任何超过最佳拟合线上方或下方两个标准差的点标记为异常值。使用的标准差是残差或误差的标准差。

我们可以在散点图中直观地做到这一点,方法是绘制一对额外的线,这些线是最佳拟合线上方和下方的两个标准差。这对额外线之外的任何数据点都将被标记为潜在的异常值。此外,我们可以通过计算每个残差并将其与标准差的两倍进行比较来以数字方式识别异常值。

本文改编自 Openstax, 统计学导论, Section 12.5 异常值

Transcript

异常值是数据集中从其他值中脱颖而出的一个或多个值。

例如,五匹最好的马是由它们的平均单圈时间决定的。不寻常的单圈时间,无论是太好还是太差,都被认为是异常值。

但是,如何从大型数据集中识别异常值呢?

一种方法是找到四分位距。高于或低于 IQR 1.5 倍的值被视为异常值。

第二种方法使用 z 分数。负 2 和加 2 z 分数中的值通常被视为常用值,涵盖大约 95% 的数据值。超出此范围的任何内容都是异常值。

第三种方法是使用箱线图。位于箱形图须线之外的任何数据点都被视为异常值。

异常值可以影响数据的平均值、标准差和范围,但可以忽略某些异常值,而不会影响样本统计量。因此,需要仔细考虑在计算中考虑异常值或将其修剪掉。

Key Terms and definitions​

Learning Objectives

Questions that this video will help you answer

This video is also useful for