5.8: O Que São Outliers?

What Are Outliers?
JoVE Core
Statistics
This content is Free Access.
JoVE Core Statistics
What Are Outliers?

3,703 Views

01:12 min
April 30, 2023

Overview

Outliers são pontos de dados observados que estão longe da linha de mínimos quadrados. Eles têm valores incomuns e precisam ser examinados com cuidado. Embora um outlier possa resultar de dados errôneos, em outros momentos, ele pode conter informações valiosas sobre a população em estudo e deve ser incluído nos dados. Portanto, é crucial examinar o que faz com que um ponto de dados seja um outlier.

A pontuação z é usada para encontrar valores discrepantes ou incomuns. Deve-se observar que quaisquer valores além de -2 e +2 são considerados valores incomuns ou discrepantes e estão longe dos outros valores de dados.

Identificando outliers

Poderíamos adivinhar outliers olhando para um gráfico de dispersão e um gráfico de melhor linha de ajuste. No entanto, precisaríamos de uma diretriz para entender a que distância um ponto precisa estar para que possa ser considerado um outlier. Como regra geral, podemos sinalizar qualquer ponto que exceda dois desvios padrão acima ou abaixo da linha de melhor ajuste como um outlier. O desvio padrão usado é o desvio padrão dos resíduos ou erros.

Podemos fazer isso visualmente no gráfico de dispersão desenhando um par extra de linhas que são dois desvios padrão acima e abaixo da linha de melhor ajuste. Quaisquer pontos de dados fora desse par extra de linhas são sinalizados como possíveis exceções. Além disso, podemos identificar outliers numericamente calculando cada resíduo e comparando-o com o dobro do desvio padrão.

Este texto foi adaptado de Openstax, Introductory Statistics, Section 12.5 Outliers

Transcript

Outliers são um ou mais valores em um conjunto de dados que se destacam dos outros.

Por exemplo, os cinco melhores cavalos são determinados pelo tempo médio da volta. Um tempo de volta incomum, muito bom ou muito ruim, é considerado um outlier.

Mas, como identificar valores discrepantes de um grande conjunto de dados?

Uma maneira é encontrar o intervalo interquartil. Valores acima ou abaixo de 1,5 vezes o IQR são considerados outliers.

O segundo método usa escores z. Os valores dentro de menos dois e mais dois escores z são geralmente considerados valores usuais, cobrindo aproximadamente 95% dos valores dos dados. Qualquer coisa fora desse intervalo é um outlier.

O terceiro método é usar boxplots. Qualquer ponto de dados que esteja fora dos bigodes de um gráfico de caixa é considerado um outlier.

Os valores discrepantes podem afetar a média, o desvio padrão e o intervalo de dados, mas alguns valores discrepantes podem ser ignorados sem afetar a estatística da amostra. Portanto, considerações cuidadosas são feitas para considerar valores discrepantes nos cálculos ou cortá-los.

Key Terms and definitions​

Learning Objectives

Questions that this video will help you answer

This video is also useful for