7.10: Szacowanie średniej populacji z nieznanym odchyleniem standardowym

Estimating Population Mean with Unknown Standard Deviation
JoVE Core
Statistics
A subscription to JoVE is required to view this content.  Sign in or start your free trial.
JoVE Core Statistics
Estimating Population Mean with Unknown Standard Deviation
Please note that all translations are automatically generated. Click here for the English version.

7,649 Views

01:22 min
April 30, 2023

Overview

W praktyce rzadko znamy odchylenie standardowe populacji. W przeszłości, gdy wielkość próby była duża, nie stanowiło to problemu dla statystyków. Wykorzystali odchylenie standardowe próby jako oszacowanie dla σ i postępowali jak poprzednio, aby obliczyć przedział ufności z wystarczająco zbliżonymi wynikami. Jednak statystycy napotkali problemy, gdy wielkość próby była niewielka. Mała liczebność próby powodowała niedokładności w przedziale ufności.

William S. Gosset (1876–1937) z browaru Guinness w Dublinie w Irlandii natknął się na ten problem. Jego eksperymenty z chmielem i jęczmieniem przyniosły bardzo niewiele próbek. Samo zastąpienie σ przez s nie dawało dokładnych wyników, gdy próbował obliczyć przedział ufności. Zdał sobie sprawę, że nie może użyć rozkładu normalnego do obliczeń; Stwierdził on, że rzeczywisty rozkład zależy od wielkości próby. Ten problem doprowadził go do “odkrycia” tego, co nazywa się rozkładem t Studenta. Nazwa wzięła się stąd, że Gosset pisał pod pseudonimem “Student”.

Do połowy lat siedemdziesiątych XX wieku niektórzy statystycy używali przybliżenia rozkładu normalnego dla dużych prób i używali rozkładu t Studenta tylko dla prób o wielkości co najwyżej 30. W przypadku kalkulatorów graficznych i komputerów praktyką jest obecnie używanie rozkładu t Studenta za każdym razem, gdy s jest używane jako oszacowanie dla σ.

Jeśli narysujesz prostą losową próbę o wielkości n z populacji, która ma w przybliżeniu rozkład normalny ze średnią μ i nieznanym odchyleniem standardowym populacji, σ i oblicz wynik t za pomocą próbki SD.

Właściwości rozkładu t Studenta

  • Wykres rozkładu t Studenta jest podobny do standardowej krzywej normalnej.
  • Średnia rozkładu t Studenta wynosi zero, a rozkład jest symetryczny względem zera.
  • Rozkład t Studenta ma większe prawdopodobieństwo w swoich ogonach niż standardowy rozkład normalny, ponieważ rozrzut rozkładu t jest większy niż rozrzut standardowej normalnej. Tak więc wykres rozkładu t Studenta będzie grubszy w ogonach i krótszy w środku niż wykres standardowego rozkładu normalnego.
  • Dokładny kształt rozkładu t Studenta zależy od stopni swobody. Wraz ze wzrostem stopni swobody wykres rozkładu t Studenta staje się bardziej podobny do wykresu standardowego rozkładu normalnego.
  • Zakłada się, że populacja leżąca u podstaw poszczególnych obserwacji ma rozkład normalny z nieznaną średnią μ populacji i nieznanym odchyleniem standardowym populacji σ. Wielkość populacji bazowej na ogół nie ma znaczenia, chyba że jest ona bardzo mała. Jeśli ma kształt dzwonu (normalny), to założenie jest spełnione i nie wymaga dyskusji. Zakłada się losowe pobieranie próbek, ale jest to założenie całkowicie odrębne od normalności.

Kalkulatory i komputery mogą z łatwością obliczyć dowolne prawdopodobieństwo t Studenta. Można również użyć tabeli prawdopodobieństwa dla rozkładu t Studenta. Tabela podaje wyniki t, które odpowiadają poziomowi ufności (kolumna) i stopniom swobody (wiersz). W przypadku korzystania z tabeli t należy pamiętać, że niektóre tabele są sformatowane tak, aby pokazywały poziom ufności w nagłówkach kolumn, podczas gdy nagłówki kolumn w niektórych tabelach mogą pokazywać tylko odpowiadający im obszar w jednym lub obu końcach.

Tabela t Studenta daje wyniki t przy danych stopniach swobody i prawdopodobieństwie prawostronnym. Stół jest bardzo ograniczony. Kalkulatory i komputery mogą z łatwością obliczyć prawdopodobieństwo t dowolnego studenta.

Notacja rozkładu t Studenta (przy użyciu T jako zmiennej losowej) jest następująca:

  • T ~ tdf, gdzie df = n – 1.
  • Na przykład, jeśli mamy próbkę o wielkości n = 20 elementów, to obliczamy stopnie swobody jako df = n – 1 = 20 – 1 = 19 i zapisujemy rozkład jako T ~ t19.

Jeżeli odchylenie standardowe populacji nie jest znane, błąd graniczny dla średniej populacji oblicza się przy użyciu próbki SD.

Ten tekst został zaadaptowany z Openstax, Introductory Statistics, Section 8.2 Pojedyncza średnia populacji przy użyciu < Studenta>a href=”https://openstax.org/books/introductory-statistics/pages/8-2-a-single-population-mean-using-the-student-t-distribution”t rozkład

.

Transcript

Oszacowanie średniej populacji na podstawie przedziału ufności wymaga marginesu błędu.

Oblicza się go przy użyciu wartości z, gdy znane jest odchylenie standardowe populacji, wielkość próby jest większa niż 30, a populacja ma rozkład normalny.

W realistycznej sytuacji można założyć, że rozkład populacji jest normalny, ale odchylenie standardowe populacji pozostaje nieznane.

Tak więc margines błędu jest obliczany inaczej za pomocą następującego równania.

W tym przypadku wartość krytyczna jest obliczana przy użyciu rozkładu t i wykorzystywane jest odchylenie standardowe próbki.

Krytyczna wartość ttα/2 — nie jest stała, ponieważ zmienia się wraz z wielkością próby.

Jest ona na ogół większa niż wartość z, co może generować szerszy zakres wartości wykorzystywanych do szacowania średniej populacji.

Stosowanie rozkładu t wymaga, aby próbki miały co najmniej w przybliżeniu rozkład normalny, a wielkość próby była większa niż 30.

W tym przypadku średnia z próby pozostaje najlepszym oszacowaniem punktowym, ale przedział ufności zapewnia wiarygodne oszacowanie rzeczywistej wartości średniej populacji.

Key Terms and definitions​

Learning Objectives

Questions that this video will help you answer

This video is also useful for