일원 분산 분석은 표본 크기가 같거나 같지 않은 3개 이상의 표본에 대해 수행할 수 있습니다. 표본이 같은 크기의 데이터셋을 가진 두 데이터셋에 대해 일원 분산 분석을 수행할 때 계산된 F 통계량이 표본 평균에 매우 민감하다는 것을 쉽게 관찰할 수 있습니다.
다른 표본 평균은 분산 추정치에 대해 다른 값, 즉 표본 간 분산을 생성할 수 있습니다. 이는 표본 간의 분산이 표본 크기와 표본 평균 간의 분산의 곱으로 계산되기 때문입니다. 따라서 표본 크기가 같은 두 데이터 세트는 표본 간의 분산에 대해 두 개의 서로 다른 값을 가질 수 있습니다.
반대로, 표본 크기가 같은 두 개의 서로 다른 데이터 세트가 표본 분산은 동일하지만 표본 평균이 다를 수 있습니다. 합동 분산이라고도 하는 표본 내 분산은 표본 분산의 평균으로 계산되기 때문에 표본 내 분산은 표본 크기가 같은 두 데이터 세트에 대해 동일할 수 있습니다.
두 데이터셋에 대해 계산된 F 통계 값은 데이터 세트가 표본 간 분산에 대해 동일하지 않은 값을 표시하지만 표본 내 분산에 대해 동일한 값을 표시하기 때문에 다릅니다.
Transcript
각각 세 개의 표본에서 학생의 키를 포함하는 두 개의 서로 다른 데이터 세트에 대해 일원 분산 분석을 수행하는 것이 좋습니다.
두 데이터 세트에서 세 표본 모두 동일한 표본 크기를 갖습니다.
여기서 세 샘플의 평균 높이가 모두 같다는 귀무 가설을 말할 수 있습니다. 대립 가설은 평균 중 하나 이상이 나머지 평균과 다르다는 것입니다.
먼저 두 데이터 세트에 대한 표본 평균과 표본 분산을 계산합니다. 두 데이터셋에서 첫 번째 표본의 평균만 크게 다르지만 표본 분산은 동일하다는 것을 관찰합니다.
다음으로, 두 데이터셋에 대한 F 통계량을 계산하고 P-값을 구합니다.
두 데이터 세트에서 첫 번째 샘플의 평균이 다르면 샘플 간의 분산에 상당한 변화가 발생합니다. 그러나 표본 내 분산은 계산하는 동안 표본 평균이 필요하지 않기 때문에 동일하게 유지됩니다.
두 데이터 세트에서 샘플 간의 분산 값이 다르면 F 통계에 영향을 미치므로 다른 결과가 나타납니다.