11.8
In an uncorrelated data set, for a given value of x, the best-predicted value of y is the mean.
If the variables have a linear correlation, a y-value can be predicted by substituting the x-value in the regression equation.
The vertical distance between the predicted y-value and the sample mean, y-bar, is known as the explained deviation. The relationship between the two variables can explain this deviation.
The vertical distance between the data point and the predicted y-value is known as the unexplained deviation or the residual. The relationship between the variables cannot explain this deviation; it may be due to chance alone or the involvement of other variables.
The sum of the unexplained and explained deviations gives the total deviation.
Squaring the deviations and summing them for all data points yields the amount of unexplained, explained, and total variation.
The ratio of the explained variation to the total variation is the r-square value, also known as the coefficient of determination. It indicates the proportion of the variation in the y-value that the regression line can explain.
Een belangrijk kenmerk van elke dataset is de spreiding of variabiliteit in de gegevens. In sommige datasets zijn de waarnemingswaarden sterk geconcentreerd rond het gemiddelde; in andere datasets zijn de waarnemingswaarden meer verspreid ten opzichte van het gemiddelde. De meest gangbare maatstaf voor spreiding is de standaarddeviatie, de vierkantswortel van de variantie.
Wanneer onafhankelijke en afhankelijke variabelen in een spreidingsdiagram worden uitgezet, is de helling van een regressielijn een maat voor de mate van verandering tussen de twee variabelen. De helling geeft aan hoe de afhankelijke variabele (y) gemiddeld verandert bij een toename van één eenheid in de onafhankelijke variabele (x). Het y-snijpunt vertegenwoordigt de waarde van de afhankelijke variabele wanneer de onafhankelijke variabele gelijk is aan nul. Een regressielijn, of lijn van best fit, kan in een spreidingsdiagram worden getekend en gebruikt worden om voorspellingen te maken over de waarden van de x- en y-variabelen in een bepaalde dataset of steekproef.
Het verschil tussen de geobserveerde steekproefwaarde, y, en de voorspelde waarde volgens uit de regressievergelijking wordt de onverklaarde deviatie genoemd. Het verschil tussen de voorspelde waarde en het steekproefgemiddelde, y̅, wordt de verklaarde deviatie genoemd. Het verschil tussen de geobserveerde waarde, y, en het steekproefgemiddelde, y̅, wordt de totale deviatie genoemd.
Wanneer we de kwadraten van de verklaarde deviatie voor alle waarnemingen optellen, verkrijgen we de verklaarde variatie. Op dezelfde manier verkrijgen we de onverklaarde variatie door de kwadraten van de onverklaarde deviaties voor alle waarnemingen op te tellen. Door de kwadraten van de totale deviaties voor alle waarnemingen op te tellen, verkrijgen we de totale variatie.
Door de verklaarde variatie te delen door de totale variatie, verkrijgen we de determinatiecoëfficiënt, r^2, die het percentage van de variatie in de afhankelijke variabele y weergeeft dat kan worden verklaard door variatie in de onafhankelijke variabele x met behulp van de regressielijn.
Deze tekst is aangepast van Openstax, Inleidende statistieken, sectie 12, Lineaire regressie en correlatie.
In an uncorrelated data set, for a given value of x, the best-predicted value of y is the mean.
If the variables have a linear correlation, a y-value can be predicted by substituting the x-value in the regression equation.
The vertical distance between the predicted y-value and the sample mean, y-bar, is known as the explained deviation. The relationship between the two variables can explain this deviation.
The vertical distance between the data point and the predicted y-value is known as the unexplained deviation or the residual. The relationship between the variables cannot explain this deviation; it may be due to chance alone or the involvement of other variables.
The sum of the unexplained and explained deviations gives the total deviation.
Squaring the deviations and summing them for all data points yields the amount of unexplained, explained, and total variation.
The ratio of the explained variation to the total variation is the r-square value, also known as the coefficient of determination. It indicates the proportion of the variation in the y-value that the regression line can explain.
From Chapter 11:
Now Playing
Correlation and Regression
6.5K Views
Correlation and Regression
12.7K Views
Correlation and Regression
8.0K Views
Correlation and Regression
6.7K Views
Correlation and Regression
7.7K Views
Correlation and Regression
5.4K Views
Correlation and Regression
7.4K Views
Correlation and Regression
4.9K Views
Correlation and Regression
2.6K Views
Correlation and Regression
3.6K Views