11.8
在不相关的数据集中,对于给定的 x 值,y 的最佳预测值是平均值。
如果变量具有线性相关性,则可以通过将 x 值代入回归方程中来预测 y 值。
预测的 y 值与样本均值 y bar 之间的垂直距离称为解释偏差。两个变量之间的关系可以解释这种偏差。
数据点与预测的 y 值之间的垂直距离称为无法解释的偏差或残差。变量之间的关系无法解释这种偏差;这可能仅仅是由于偶然性或其他变量的参与。
unexplained 和 explained 偏差之和给出了总偏差。
对所有数据点的偏差进行平方并求和,得到未解释的变异、已解释的变异和总变异的数量。
解释的变异与总变异的比值是 r 平方值,也称为决定系数。它指示回归线可以解释的 y 值中变异的比例。
任何数据集的一个重要特征是数据的变化。在某些数据集中,数据值会集中在平均值的附近;而在其他的一些数据集中,数据值则会与平均值之间的距离较远。最常见的变异度量或分布度量是标准差,即方差的平方根。
在散点图上绘制自变量和因变量时,直线的斜率就是用来描述两个变量之间变化率的值。斜率告诉了我们,当自变量(x)每增加一个单位时,因变量(y)的平均变化情况。其中,y 的截距描述了当自变量 x 为零时,因变量 y 的变化情况。可以在散点图上绘制回归线或最佳拟合线,并将其用于预测给定数据集或样本数据中 x 和 y 变量的结果。
观察到的样本值 y 与回归方程中的预测值(Equation1)之间的差值称为未解释的偏差。而预测值与样本平均值 y̅ 之间的差值则称为解释偏差。观测值 y 与样本平均值 y̅ 之间的差值便是总偏差。
如果将所有数据点处解释偏差的平方进行相加,便能够得到解释的变异。同样,如果我们将所有数据点处未解释的偏差的平方进行相加,我们便能够得到未解释的变异。此外,如果我们将所有数据点处总偏差的平方进行相加,便能够得到总变异。将解释的变异除以总偏差便能够得到决定系数 r^2 的值,它表示了因变量 y 的变异百分比,可以使用回归线对通过自变量 x 的变异来进行解释。
本文改编自 Openstax, Introductory Statistics, Section 12, Linear Regression and Correlation.
在不相关的数据集中,对于给定的 x 值,y 的最佳预测值是平均值。
如果变量具有线性相关性,则可以通过将 x 值代入回归方程中来预测 y 值。
预测的 y 值与样本均值 y bar 之间的垂直距离称为解释偏差。两个变量之间的关系可以解释这种偏差。
数据点与预测的 y 值之间的垂直距离称为无法解释的偏差或残差。变量之间的关系无法解释这种偏差;这可能仅仅是由于偶然性或其他变量的参与。
unexplained 和 explained 偏差之和给出了总偏差。
对所有数据点的偏差进行平方并求和,得到未解释的变异、已解释的变异和总变异的数量。
解释的变异与总变异的比值是 r 平方值,也称为决定系数。它指示回归线可以解释的 y 值中变异的比例。
From Chapter 11:
Now Playing
Correlation and Regression
6.5K Views
Correlation and Regression
12.7K Views
Correlation and Regression
8.0K Views
Correlation and Regression
6.7K Views
Correlation and Regression
7.7K Views
Correlation and Regression
5.4K Views
Correlation and Regression
7.4K Views
Correlation and Regression
4.9K Views
Correlation and Regression
2.6K Views
Correlation and Regression
3.6K Views