7.10: Estimation de la moyenne de la population avec un écart-type inconnu

Estimating Population Mean with Unknown Standard Deviation
JoVE Core
Statistics
A subscription to JoVE is required to view this content.  Sign in or start your free trial.
JoVE Core Statistics
Estimating Population Mean with Unknown Standard Deviation
Please note that all translations are automatically generated. Click here for the English version.

8,018 Views

01:22 min
April 30, 2023

Overview

En pratique, nous connaissons rarement l’écart-type de la population. Dans le passé, lorsque la taille de l’échantillon était grande, cela ne posait pas de problème aux statisticiens. Ils ont utilisé l’écart-type de l’échantillon s comme estimation de σ et ont procédé comme précédemment au calcul d’un intervalle de confiance avec des résultats suffisamment proches. Cependant, les statisticiens ont rencontré des problèmes lorsque la taille de l’échantillon était petite. La petite taille de l’échantillon a entraîné des inexactitudes dans l’intervalle de confiance.

William S. Gosset (1876-1937) de la brasserie Guinness à Dublin, en Irlande, a rencontré ce problème. Ses expériences avec le houblon et l’orge ont produit très peu d’échantillons. Le simple fait de remplacer σ par s n’a pas donné de résultats précis lorsqu’il a essayé de calculer un intervalle de confiance. Il s’est rendu compte qu’il ne pouvait pas utiliser une distribution normale pour le calcul ; Il a constaté que la distribution réelle dépend de la taille de l’échantillon. Ce problème l’a amené à « découvrir » ce qu’on appelle la distribution t de Student. Le nom vient du fait que Gosset a écrit sous le nom de plume « Student ».

Jusqu’au milieu des années 1970, certains statisticiens utilisaient l’approximation de la distribution normale pour les grands échantillons et n’utilisaient la distribution t de Student que pour des échantillons d’au plus 30 tailles. Avec les calculatrices graphiques et les ordinateurs, la pratique consiste maintenant à utiliser la distribution t de Student chaque fois que s est utilisé comme estimation de σ.

Si vous tirez un échantillon aléatoire simple de taille n à partir d’une population dont la distribution est approximativement normale avec une μ moyenne et un écart type de population inconnu σ et calculez le score t à l’aide de l’échantillon SD.

Propriétés de la distribution t de Student

  • Le graphique de la distribution t de Student est similaire à la courbe normale standard.
  • La moyenne de la distribution t de Student est nulle et la distribution est symétrique autour de zéro.
  • La distribution t de Student a plus de probabilité dans ses queues que la distribution normale standard car l’écart de la distribution t est supérieur à l’écart de la normale standard. Ainsi, le graphique de la distribution t de Student sera plus épais dans les queues et plus court au centre que le graphique de la distribution normale standard.
  • La forme exacte de la distribution t de Student dépend des degrés de liberté. Au fur et à mesure que les degrés de liberté augmentent, le graphique de la distribution t de Student ressemble davantage au graphique de la distribution normale standard.
  • On suppose que la population sous-jacente des observations individuelles est normalement distribuée avec une μ moyenne de population inconnue et un écart-type de population inconnu σ. La taille de la population sous-jacente n’est généralement pas pertinente, à moins qu’elle ne soit très petite. S’il est en forme de cloche (normal), alors l’hypothèse est vérifiée et n’a pas besoin de discussion. L’échantillonnage aléatoire est supposé, mais il s’agit d’une hypothèse complètement distincte de la normalité.

Les calculatrices et les ordinateurs peuvent facilement calculer les probabilités t de n’importe quel étudiant. Une table de probabilité pour la distribution t de Student peut également être utilisée. Le tableau donne des scores t qui correspondent au niveau de confiance (colonne) et aux degrés de liberté (ligne). Lorsque vous utilisez une table t, notez que certaines tables sont formatées pour afficher le niveau de confiance dans les en-têtes de colonne, tandis que les en-têtes de colonne dans certaines tables peuvent afficher uniquement la zone correspondante dans l’une ou les deux queues.

La table t d’un Student donne des scores t compte tenu des degrés de liberté et de la probabilité de droite. La table est très limitée. Les calculatrices et les ordinateurs peuvent facilement calculer les probabilités t de n’importe quel élève.

La notation de la distribution t de Student (en utilisant T comme variable aléatoire) est la suivante :

  • T ~ tdfdf = n – 1.
  • Par exemple, si nous avons un échantillon de taille n = 20 éléments, alors nous calculons les degrés de liberté comme df = n – 1 = 20 – 1 = 19 et nous écrivons la distribution comme T ~ t19.

Si l’écart-type de la population n’est pas connu, la borne d’erreur d’une moyenne de population est calculée à l’aide de l’écart-type de l’échantillon.

Ce texte est adapté de Openstax, Introductions aux statistiques, Section 8.2 Une seule moyenne de population utilisant la <a href=”https://openstax.org/books/introductory-statistics/pages/8-2-a-single-population-mean-using-the-student-t-distribution”>t de Student distribution.

Transcript

L’estimation de la moyenne de la population à partir de l’intervalle de confiance nécessite la marge d’erreur.

Il est calculé à l’aide de la valeur z lorsque l’écart-type de la population est connu, que la taille de l’échantillon est supérieure à 30 et que la population est normalement distribuée.

Dans une situation réaliste, on peut supposer que la distribution de la population est normale, mais l’écart-type de la population reste inconnu.

Ainsi, la marge d’erreur est calculée différemment à l’aide de l’équation suivante.

Ici, la valeur critique est calculée à l’aide de la distribution t et un écart-type d’échantillon est utilisé.

La valeur critique de t (tα/2) n’est pas constante car elle change en fonction de la taille de l’échantillon.

Elle est généralement supérieure à la valeur z, ce qui peut générer une gamme plus large de valeurs utilisées pour l’estimation de la moyenne de la population.

L’utilisation de la distribution t nécessite que les échantillons soient au moins approximativement normalement répartis et que la taille de l’échantillon soit supérieure à 30.

Ici, la moyenne de l’échantillon reste la meilleure estimation ponctuelle, mais l’intervalle de confiance fournit une estimation fiable de la valeur réelle de la moyenne de la population.

Key Terms and definitions​

Learning Objectives

Questions that this video will help you answer

This video is also useful for