11.5: Outliers e Pontos Influentes

Outliers and Influential Points
JoVE Core
Statistics
A subscription to JoVE is required to view this content.  Sign in or start your free trial.
JoVE Core Statistics
Outliers and Influential Points

4,030 Views

01:08 min
April 30, 2023

Overview

Um outlier é uma observação de dados que não se ajustam ao restante dos dados. Às vezes é chamado de valor extremo. Quando você representa graficamente um outlier, ele parece não se encaixar no padrão do gráfico. Alguns valores discrepantes são devidos a erros (por exemplo, escrever 50 em vez de 500), enquanto outros podem indicar que algo incomum está acontecendo. Outliers estão presentes longe da linha de mínimos quadrados na direção vertical. Eles têm grandes “erros”, onde o “erro” ou resíduo é a distância vertical da linha ao ponto.

Os valores discrepantes precisam ser examinados de perto. Às vezes, por algum motivo ou outro, eles não devem ser incluídos na análise dos dados. Um outlier pode ser resultado de dados incorretos. Outras vezes, um outlier pode conter informações valiosas sobre a população em estudo e deve permanecer incluído nos dados. A chave é examinar cuidadosamente o que faz com que um ponto de dados seja um outlier.

Além de outliers, uma amostra pode conter um ou alguns pontos que são chamados de pontos influentes. Pontos influentes são pontos de dados observados que estão distantes dos outros pontos de dados observados na direção horizontal. Esses pontos podem ter um efeito significativo na inclinação da reta de regressão. Para identificar um ponto influente, você pode removê-lo do conjunto de dados e ver se a inclinação da linha de regressão é alterada significativamente.

Computadores e muitas calculadoras podem ser usados para identificar valores discrepantes dos dados. A saída do computador para análise de regressão geralmente identifica valores discrepantes e pontos influentes para que você possa examiná-los.

Este texto foi adaptado de Openstax, Introductory Statistics, Section 12.6 Outliers

Transcript

Considere o gráfico de dispersão da renda anual versus anos de escolaridade, ajustado com uma linha de regressão.

Uma pessoa com apenas alguns anos de escolaridade tem uma renda excepcionalmente alta em comparação com outras.

Esse ponto de dados que não segue a tendência e está longe da linha de regressão na direção vertical é chamado de outlier.

Quantitativamente, os valores discrepantes podem ser identificados usando resíduos, que é a diferença entre o valor y observado do ponto de dados e o valor y conforme previsto na equação de regressão.

Agora, o desvio padrão do resíduo é calculado usando sua fórmula.

Como regra geral, os pontos de dados localizados pelo menos dois desvios padrão residuais acima e abaixo da linha de regressão são sinalizados como possíveis valores discrepantes.

Além disso, os conjuntos de dados também podem ter pontos influentes. Esses pontos estão localizados horizontalmente, longe do resto dos pontos. A adição ou remoção dos pontos influentes altera significativamente a linha de regressão.

Key Terms and definitions​

Learning Objectives

Questions that this video will help you answer

This video is also useful for