Uma característica importante de qualquer conjunto de dados é a variação nos dados. Em alguns conjuntos de dados, os valores dos dados estão concentrados próximos à média; Em outros conjuntos de dados, os valores de dados são mais amplamente distribuídos a partir da média. A medida mais comum de variação, ou spread, é o desvio padrão, que é a raiz quadrada da variância.
Quando variáveis independentes e dependentes são plotadas em um gráfico de dispersão, a inclinação de uma linha é um valor que descreve a taxa de variação entre as duas variáveis. A inclinação nos diz como a variável dependente (y) muda para cada aumento de unidade na variável independente (x), em média. A interceptação y descreve a variável dependente quando a variável independente é igual a zero. Uma linha de regressão, ou uma linha de melhor ajuste, pode ser desenhada em um gráfico de dispersão e usada para prever resultados para as variáveis x e y em um determinado conjunto de dados ou dados de amostra.
A diferença entre o valor amostral observado, y, e o valor previsto, da equação de regressão, é conhecida como desvio inexplicável. Considerando que a diferença entre o valor previsto
e a média da amostra, y̅, é chamada de desvio explicado. A diferença entre o valor observado, y, e a média da amostra, y̅, é o desvio total.
Se você adicionar os quadrados dos desvios explicados para todos os pontos de dados, obteremos a variação explicada. Da mesma forma, se adicionarmos os quadrados dos desvios inexplicáveis para todos os pontos de dados, obteremos a variação inexplicável. Além disso, se adicionarmos os quadrados dos desvios totais para todos os pontos de dados, obteremos a variação total. Dividindo a variação explicada pelo desvio total, obtém-nos o valor do coeficiente de determinação, r2, que representa a porcentagem da variação na variável dependente y que pode ser explicada pela variação na variável independente x usando a linha de regressão.
Este texto foi adaptado de Openstax, Introductory Statistics, Section 12, Linear Regression and Correlation.
Em um conjunto de dados não correlacionados, para um determinado valor de x, o melhor valor previsto de y é a média.
Se as variáveis tiverem uma correlação linear, um valor y pode ser previsto substituindo o valor x na equação de regressão.
A distância vertical entre o valor y previsto e a média da amostra, barra y, é conhecida como desvio explicado. A relação entre as duas variáveis pode explicar esse desvio.
A distância vertical entre o ponto de dados e o valor y previsto é conhecida como desvio inexplicável ou residual. A relação entre as variáveis não pode explicar esse desvio; pode ser devido apenas ao acaso ou ao envolvimento de outras variáveis.
A soma dos desvios inexplicáveis e explicados dá o desvio total.
Elevar os desvios ao quadrado e somá-los para todos os pontos de dados produz a quantidade de variação inexplicável, explicada e total.
A razão entre a variação explicada e a variação total é o valor do r-quadrado, também conhecido como coeficiente de determinação. Indica a proporção da variação no valor y que a linha de regressão pode explicar.
Related Videos
Correlation and Regression
11.7K Visualizações
Correlation and Regression
6.1K Visualizações
Correlation and Regression
5.9K Visualizações
Correlation and Regression
5.7K Visualizações
Correlation and Regression
4.0K Visualizações
Correlation and Regression
7.3K Visualizações
Correlation and Regression
4.6K Visualizações
Correlation and Regression
6.8K Visualizações
Correlation and Regression
2.2K Visualizações
Correlation and Regression
3.0K Visualizações