모든 데이터 집합의 중요한 특성은 데이터의 변동입니다. 일부 데이터 세트에서는 데이터 값이 평균 근처에 가깝게 집중되어 있습니다. 다른 데이터 세트에서는 데이터 값이 평균에서 더 넓게 퍼져 있습니다. 변동 또는 스프레드의 가장 일반적인 측정값은 분산의 제곱근인 표준 편차입니다.
독립 변수와 종속 변수가 산점도에 표시될 때 선의 기울기는 두 변수 간의 변화율을 설명하는 값입니다. 기울기는 독립 변수(x) 변수가 1단위 증가할 때마다 종속 변수(y)가 평균적으로 어떻게 변하는지 알려줍니다. y-절편은 독립 변수가 0과 같을 때 종속 변수를 설명합니다. 회귀선 또는 최적선은 산점도에 그릴 수 있으며 지정된 데이터 세트 또는 표본 데이터에서 x 및 y 변수에 대한 결과를 예측하는 데 사용할 수 있습니다.
회귀 방정식에서 관측된 표본 값 y와 예측 값 간의 차이를 설명할 수 없는 편차라고 합니다. 반면 예측값
과 표본 평균 y̅ 간의 차이를 설명된 편차라고 합니다. 관측값 y와 표본 평균 y̅의 차이가 총 편차입니다.
모든 데이터 포인트에 대해 설명된 편차의 제곱을 더하면 설명된 변동을 얻을 수 있습니다. 같은 방식으로, 모든 데이터 포인트에 대해 설명할 수 없는 편차의 제곱을 더하면 설명할 수 없는 변동을 얻을 수 있습니다. 또한 모든 데이터 포인트에 대한 총 편차의 제곱을 더하면 총 변동을 얻을 수 있습니다. 설명된 변동을 총 편차로 나누면 결정 계수 r2 값이 나오며, 이는 회귀선을 사용하여 독립 변수 x의 변동으로 설명할 수 있는 종속 변수 y의 변동 백분율을 나타냅니다.
이 텍스트는 Openstax, Introductory Statistics, Section 12, Linear Regression and Correlation에서 발췌한 것입니다.
상관 관계가 없는 데이터 세트에서 주어진 x 값에 대해 y의 최적 예측 값이 평균입니다.
변수가 선형 상관 관계를 갖는 경우 회귀 방정식에서 x-값을 대체하여 y-값을 예측할 수 있습니다.
예측된 y-값과 표본 평균 y-bar 사이의 수직 거리를 설명된 편차라고 합니다. 두 변수 간의 관계는 이러한 편차를 설명할 수 있습니다.
데이터 포인트와 예측된 y-값 사이의 수직 거리를 설명할 수 없는 편차 또는 잔차라고 합니다. 변수 간의 관계는 이러한 편차를 설명할 수 없습니다. 그것은 우연에만 기인할 수도 있고 다른 변수의 개입 때문일 수도 있습니다.
설명할 수 없는 편차와 설명된 편차의 합이 총 편차를 제공합니다.
편차를 제곱하고 모든 데이터 포인트에 대해 합산하면 설명할 수 없는 변동, 설명할 수 있는 변동 및 총 변동의 양을 산출합니다.
총 변동에 대한 설명된 변동의 비율은 결정 계수라고도 하는 r-제곱 값입니다. 회귀선이 설명할 수 있는 y-값의 변동 비율을 나타냅니다.
Related Videos
Correlation and Regression
11.7K views
Correlation and Regression
6.1K views
Correlation and Regression
5.9K views
Correlation and Regression
5.7K views
Correlation and Regression
4.0K views
Correlation and Regression
7.3K views
Correlation and Regression
4.6K views
Correlation and Regression
6.8K views
Correlation and Regression
2.2K views
Correlation and Regression
3.0K views