Una caratteristica importante di qualsiasi insieme di dati è la variazione dei dati. In alcuni set di dati, i valori dei dati sono concentrati vicino alla media; In altri set di dati, i valori dei dati sono più ampiamente distribuiti rispetto alla media. La misura più comune della variazione, o spread, è la deviazione standard, che è la radice quadrata della varianza.
Quando le variabili indipendenti e dipendenti vengono tracciate su un grafico a dispersione, la pendenza di una linea è un valore che descrive la velocità di variazione tra le due variabili. La pendenza ci dice come cambia la variabile dipendente (y) per ogni aumento unitario della variabile indipendente (x), in media. L’intercetta y descrive la variabile dipendente quando la variabile indipendente è uguale a zero. Una linea di regressione, o una linea di best fit, può essere tracciata su un grafico a dispersione e utilizzata per prevedere i risultati per le variabili x e y in un determinato set di dati o dati campione.
La differenza tra il valore del campione osservato, y, e il valore previsto, dall’equazione di regressione, è nota come deviazione inspiegabile. Mentre la differenza tra il valore previsto
e la media del campione, y̅, è chiamata deviazione spiegata. La differenza tra il valore osservato, y, e la media campionaria, y̅, è la deviazione totale.
Se si sommano i quadrati delle deviazioni spiegate per tutti i punti dati, si ottiene la variazione spiegata. Allo stesso modo, se sommiamo i quadrati delle deviazioni inspiegabili per tutti i punti dati, otteniamo la variazione inspiegabile. Inoltre, se sommiamo i quadrati delle deviazioni totali per tutti i punti dati, otteniamo la variazione totale. Dividendo la variazione spiegata per la deviazione totale si ottiene il valore del coefficiente di determinazione, r2, che rappresenta la percentuale della variazione della variabile dipendente y che può essere spiegata dalla variazione della variabile indipendente x utilizzando la retta di regressione.
Questo testo è adattato da Openstax, Statistiche introduttive, Sezione 12, Regressione lineare e correlazione.
In un set di dati non correlato, per un dato valore di x, il valore meglio previsto di y è la media.
Se le variabili hanno una correlazione lineare, un valore y può essere previsto sostituendo il valore x nell’equazione di regressione.
La distanza verticale tra il valore y previsto e la media campionaria, la barra y, è nota come deviazione spiegata. La relazione tra le due variabili può spiegare questa deviazione.
La distanza verticale tra il punto dati e il valore y previsto è nota come deviazione inspiegabile o residuo. La relazione tra le variabili non può spiegare questa deviazione; Può essere dovuto solo al caso o al coinvolgimento di altre variabili.
La somma delle deviazioni inspiegabili e spiegate dà la deviazione totale.
Elevando al quadrato le deviazioni e sommandole per tutti i punti dati si ottiene la quantità di variazione inspiegabile, spiegata e totale.
Il rapporto tra la variazione spiegata e la variazione totale è il valore r-quadrato, noto anche come coefficiente di determinazione. Indica la proporzione della variazione nel valore y che la linea di regressione può spiegare.
Related Videos
Correlation and Regression
11.7K Visualizzazioni
Correlation and Regression
6.1K Visualizzazioni
Correlation and Regression
5.9K Visualizzazioni
Correlation and Regression
5.7K Visualizzazioni
Correlation and Regression
4.0K Visualizzazioni
Correlation and Regression
7.3K Visualizzazioni
Correlation and Regression
4.6K Visualizzazioni
Correlation and Regression
6.8K Visualizzazioni
Correlation and Regression
2.2K Visualizzazioni
Correlation and Regression
3.0K Visualizzazioni