11.8
In un set di dati non correlato, per un dato valore di x, il valore meglio previsto di y è la media.
Se le variabili hanno una correlazione lineare, un valore y può essere previsto sostituendo il valore x nell'equazione di regressione.
La distanza verticale tra il valore y previsto e la media campionaria, la barra y, è nota come deviazione spiegata. La relazione tra le due variabili può spiegare questa deviazione.
La distanza verticale tra il punto dati e il valore y previsto è nota come deviazione inspiegabile o residuo. La relazione tra le variabili non può spiegare questa deviazione; Può essere dovuto solo al caso o al coinvolgimento di altre variabili.
La somma delle deviazioni inspiegabili e spiegate dà la deviazione totale.
Elevando al quadrato le deviazioni e sommandole per tutti i punti dati si ottiene la quantità di variazione inspiegabile, spiegata e totale.
Il rapporto tra la variazione spiegata e la variazione totale è il valore r-quadrato, noto anche come coefficiente di determinazione. Indica la proporzione della variazione nel valore y che la linea di regressione può spiegare.
Una caratteristica importante di qualsiasi insieme di dati è la variazione dei dati. In alcuni set di dati, i valori sono concentrati molto vicino alla media, in altri set di dati, i valori sono più distanziati dalla media. La misura più comune di variazione, o spread, è la deviazione standard, che è la radice quadrata della varianza.
Quando le variabili indipendenti e dipendenti vengono tracciate su un grafico a dispersione, la pendenza di una linea indica un valore che descrive il tasso di variazione tra le due variabili. La pendenza ci dice come cambia, in media, la variabile dipendente (y) per ogni aumento unitario della variabile indipendente (x). L'intercetta y descrive la variabile dipendente quando la variabile indipendente è uguale a zero. Una linea di regressione, o una linea di adattamento ottimale, può essere tracciata su un grafico a dispersione e utilizzata per prevedere i risultati per le variabili x e y in un determinato set di dati o dati campione.
La differenza tra il valore del campione osservato, y, e il valore previsto, dall'equazione di regressione, è nota come deviazione inspiegabile. Mentre la differenza tra il valore previsto
e la media campionaria, y̅, è chiamata deviazione spiegata. La differenza tra il valore osservato, y, e la media campionaria, y̅, è la deviazione totale.
Se aggiungi i quadrati delle deviazioni spiegate per tutti i dati, otteniamo la variazione spiegata. Allo stesso modo, se aggiungiamo i quadrati delle deviazioni inspiegabili per tutti i dati, otteniamo la variazione inspiegabile. Inoltre, se aggiungiamo i quadrati delle deviazioni totali per tutti i dati, otteniamo la variazione totale. Dividendo la variazione spiegata per la deviazione totale si ottiene il valore del coefficiente di determinazione, r2, che rappresenta la percentuale della variazione nella variabile dipendente y che può essere spiegata dalla variazione nella variabile indipendente x utilizzando la retta di regressione.
Questo testo è adattato da Openstax, Introductory Statistics, Section 12, Linear Regression and Correlation.
In un set di dati non correlato, per un dato valore di x, il valore meglio previsto di y è la media.
Se le variabili hanno una correlazione lineare, un valore y può essere previsto sostituendo il valore x nell'equazione di regressione.
La distanza verticale tra il valore y previsto e la media campionaria, la barra y, è nota come deviazione spiegata. La relazione tra le due variabili può spiegare questa deviazione.
La distanza verticale tra il punto dati e il valore y previsto è nota come deviazione inspiegabile o residuo. La relazione tra le variabili non può spiegare questa deviazione; Può essere dovuto solo al caso o al coinvolgimento di altre variabili.
La somma delle deviazioni inspiegabili e spiegate dà la deviazione totale.
Elevando al quadrato le deviazioni e sommandole per tutti i punti dati si ottiene la quantità di variazione inspiegabile, spiegata e totale.
Il rapporto tra la variazione spiegata e la variazione totale è il valore r-quadrato, noto anche come coefficiente di determinazione. Indica la proporzione della variazione nel valore y che la linea di regressione può spiegare.
From Chapter 11:
Now Playing
Correlation and Regression
6.5K Views
Correlation and Regression
12.7K Views
Correlation and Regression
8.0K Views
Correlation and Regression
6.7K Views
Correlation and Regression
7.7K Views
Correlation and Regression
5.4K Views
Correlation and Regression
7.4K Views
Correlation and Regression
4.9K Views
Correlation and Regression
2.6K Views
Correlation and Regression
3.6K Views