11.8: 변이

Variation
JoVE Core
Statistics
A subscription to JoVE is required to view this content.  Sign in or start your free trial.
JoVE Core Statistics
Variation
Please note that all translations are automatically generated. Click here for the English version.

6,762 Views

01:19 min
April 30, 2023

Overview

모든 데이터 집합의 중요한 특성은 데이터의 변동입니다. 일부 데이터 세트에서는 데이터 값이 평균 근처에 가깝게 집중되어 있습니다. 다른 데이터 세트에서는 데이터 값이 평균에서 더 넓게 퍼져 있습니다. 변동 또는 스프레드의 가장 일반적인 측정값은 분산의 제곱근인 표준 편차입니다.

독립 변수와 종속 변수가 산점도에 표시될 때 선의 기울기는 두 변수 간의 변화율을 설명하는 값입니다. 기울기는 독립 변수(x) 변수가 1단위 증가할 때마다 종속 변수(y)가 평균적으로 어떻게 변하는지 알려줍니다. y-절편은 독립 변수가 0과 같을 때 종속 변수를 설명합니다. 회귀선 또는 최적선은 산점도에 그릴 수 있으며 지정된 데이터 세트 또는 표본 데이터에서 xy 변수에 대한 결과를 예측하는 데 사용할 수 있습니다.

회귀 방정식에서 관측된 표본 값 y와 예측 값 Equation1 간의 차이를 설명할 수 없는 편차라고 합니다. 반면 예측값 과 표본 평균 간의 차이를 설명된 편차라고 합니다. 관측값 y와 표본 평균 의 차이가 총 편차입니다.

모든 데이터 포인트에 대해 설명된 편차의 제곱을 더하면 설명된 변동을 얻을 수 있습니다. 같은 방식으로, 모든 데이터 포인트에 대해 설명할 수 없는 편차의 제곱을 더하면 설명할 수 없는 변동을 얻을 수 있습니다. 또한 모든 데이터 포인트에 대한 총 편차의 제곱을 더하면 총 변동을 얻을 수 있습니다. 설명된 변동을 총 편차로 나누면 결정 계수 r2 값이 나오며, 이는 회귀선을 사용하여 독립 변수 x의 변동으로 설명할 수 있는 종속 변수 y의 변동 백분율을 나타냅니다.

이 텍스트는 Openstax, Introductory Statistics, Section 12, Linear Regression and Correlation에서 발췌한 것입니다.

Transcript

상관 관계가 없는 데이터 세트에서 주어진 x 값에 대해 y의 최적 예측 값이 평균입니다.

변수가 선형 상관 관계를 갖는 경우 회귀 방정식에서 x-값을 대체하여 y-값을 예측할 수 있습니다.

예측된 y-값과 표본 평균 y-bar 사이의 수직 거리를 설명된 편차라고 합니다. 두 변수 간의 관계는 이러한 편차를 설명할 수 있습니다.

데이터 포인트와 예측된 y-값 사이의 수직 거리를 설명할 수 없는 편차 또는 잔차라고 합니다. 변수 간의 관계는 이러한 편차를 설명할 수 없습니다. 그것은 우연에만 기인할 수도 있고 다른 변수의 개입 때문일 수도 있습니다.

설명할 수 없는 편차와 설명된 편차의 합이 총 편차를 제공합니다.

편차를 제곱하고 모든 데이터 포인트에 대해 합산하면 설명할 수 없는 변동, 설명할 수 있는 변동 및 총 변동의 양을 산출합니다.

총 변동에 대한 설명된 변동의 비율은 결정 계수라고도 하는 r-제곱 값입니다. 회귀선이 설명할 수 있는 y-값의 변동 비율을 나타냅니다.

Key Terms and definitions​

  • Variation - The spread or deviation of the data values in relation to the mean of the data set.
  • Standard Deviation - The most common measure of variation, and equal to the square root of variance.
  • Regression Line - A predictive line indicating the relation between dependent and independent variables in a scatter plot.
  • Explained and Unexplained Variation - The parts of total variation attributable to and not attributable to the Regression Line, respectively.
  • Coefficient of Determination - Represents percentage of variation in dependent variable that can be explained using the Regression line.

Learning Objectives

  • Define Variation – Understand the spread in a given dataset (e.g., variation)
  • Contrast Explained and Unexplained Variation – Understand the different components of total variation (e.g., Explained and Unexplained Variation).
  • Explore Regression Line – Understanding its role in predicting values (e.g., Regression Line).
  • Explain Coefficient of Determination - Understanding what it represents.
  • Apply in Context – Understand how these concepts come together when analyzing a data set.

Questions that this video will help you answer

  • What is variation and how does it relate to standard deviation?
  • What's the role and significance of Regression Line in a scatter plot?
  • What is the coefficient of determination, and what does it represent?

This video is also useful for

  • Students – Understand how these key terms can help comprehend dataset characteristics
  • Educators – Provides a clearer framework for the teaching of the topic
  • Researchers – Crucial elements for a much broader scientific study or methodology
  • Science Enthusiasts – Offers insights and understandings that can satisfy curiosity towards these topics.