11.8: Variação

Variation
JoVE Core
Statistics
A subscription to JoVE is required to view this content.  Sign in or start your free trial.
JoVE Core Statistics
Variation

6,762 Views

01:19 min
April 30, 2023

Overview

Uma característica importante de qualquer conjunto de dados é a variação nos dados. Em alguns conjuntos de dados, os valores dos dados estão concentrados próximos à média; Em outros conjuntos de dados, os valores de dados são mais amplamente distribuídos a partir da média. A medida mais comum de variação, ou spread, é o desvio padrão, que é a raiz quadrada da variância.

Quando variáveis independentes e dependentes são plotadas em um gráfico de dispersão, a inclinação de uma linha é um valor que descreve a taxa de variação entre as duas variáveis. A inclinação nos diz como a variável dependente (y) muda para cada aumento de unidade na variável independente (x), em média. A interceptação y descreve a variável dependente quando a variável independente é igual a zero. Uma linha de regressão, ou uma linha de melhor ajuste, pode ser desenhada em um gráfico de dispersão e usada para prever resultados para as variáveis x e y em um determinado conjunto de dados ou dados de amostra.

A diferença entre o valor amostral observado, y, e o valor previsto,Equation1 da equação de regressão, é conhecida como desvio inexplicável. Considerando que a diferença entre o valor previsto e a média da amostra, y̅, é chamada de desvio explicado. A diferença entre o valor observado, y, e a média da amostra, , é o desvio total.

Se você adicionar os quadrados dos desvios explicados para todos os pontos de dados, obteremos a variação explicada. Da mesma forma, se adicionarmos os quadrados dos desvios inexplicáveis para todos os pontos de dados, obteremos a variação inexplicável. Além disso, se adicionarmos os quadrados dos desvios totais para todos os pontos de dados, obteremos a variação total. Dividindo a variação explicada pelo desvio total, obtém-nos o valor do coeficiente de determinação, r2, que representa a porcentagem da variação na variável dependente y que pode ser explicada pela variação na variável independente x usando a linha de regressão.

Este texto foi adaptado de Openstax, Introductory Statistics, Section 12, Linear Regression and Correlation.

Transcript

Em um conjunto de dados não correlacionados, para um determinado valor de x, o melhor valor previsto de y é a média.

Se as variáveis tiverem uma correlação linear, um valor y pode ser previsto substituindo o valor x na equação de regressão.

A distância vertical entre o valor y previsto e a média da amostra, barra y, é conhecida como desvio explicado. A relação entre as duas variáveis pode explicar esse desvio.

A distância vertical entre o ponto de dados e o valor y previsto é conhecida como desvio inexplicável ou residual. A relação entre as variáveis não pode explicar esse desvio; pode ser devido apenas ao acaso ou ao envolvimento de outras variáveis.

A soma dos desvios inexplicáveis e explicados dá o desvio total.

Elevar os desvios ao quadrado e somá-los para todos os pontos de dados produz a quantidade de variação inexplicável, explicada e total.

A razão entre a variação explicada e a variação total é o valor do r-quadrado, também conhecido como coeficiente de determinação. Indica a proporção da variação no valor y que a linha de regressão pode explicar.

Key Terms and definitions​

  • Variation - The spread or deviation of the data values in relation to the mean of the data set.
  • Standard Deviation - The most common measure of variation, and equal to the square root of variance.
  • Regression Line - A predictive line indicating the relation between dependent and independent variables in a scatter plot.
  • Explained and Unexplained Variation - The parts of total variation attributable to and not attributable to the Regression Line, respectively.
  • Coefficient of Determination - Represents percentage of variation in dependent variable that can be explained using the Regression line.

Learning Objectives

  • Define Variation – Understand the spread in a given dataset (e.g., variation)
  • Contrast Explained and Unexplained Variation – Understand the different components of total variation (e.g., Explained and Unexplained Variation).
  • Explore Regression Line – Understanding its role in predicting values (e.g., Regression Line).
  • Explain Coefficient of Determination - Understanding what it represents.
  • Apply in Context – Understand how these concepts come together when analyzing a data set.

Questions that this video will help you answer

  • What is variation and how does it relate to standard deviation?
  • What's the role and significance of Regression Line in a scatter plot?
  • What is the coefficient of determination, and what does it represent?

This video is also useful for

  • Students – Understand how these key terms can help comprehend dataset characteristics
  • Educators – Provides a clearer framework for the teaching of the topic
  • Researchers – Crucial elements for a much broader scientific study or methodology
  • Science Enthusiasts – Offers insights and understandings that can satisfy curiosity towards these topics.