Calculateur de p-value - tests Z, t, F et khi-deux

Trouvez la p-value à partir de n’importe quelle statistique de test — Z, t, F ou khi-deux — avec des options bilatérale, unilatérale à droite ou à gauche pour décider instantanément de la significativité.

Sélectionnez le type de test statistique et la queue, saisissez la statistique de test et les degrés de liberté, puis obtenez la p-value exacte et un verdict de significativité.

Calculateur de p-value - tests Z, t, F et khi-deux
Trouvez la p-value à partir de n’importe quelle statistique de test — Z, t, F ou khi-deux — avec des options bilatérale, unilatérale à droite ou à gauche pour décider instantanément de la significativité.

À propos du calculateur de p-value

La p-value est la probabilité d’obtenir une statistique de test au moins aussi extrême que celle observée, en supposant l’hypothèse nulle vraie. C’est la sortie centrale de presque tous les tests statistiques classiques et le critère principal pour décider s’il faut rejeter l’hypothèse nulle. Une petite p-value signifie que les données observées sont peu probables sous l’hypothèse nulle, ce qui constitue une preuve en faveur de l’hypothèse alternative. La procédure commence avec une hypothèse nulle H₀ (généralement une absence d’effet, de différence ou d’association) et une hypothèse alternative H₁. On collecte ensuite les données, on calcule une statistique de test (Z, t, F ou χ²), puis on utilise la loi de probabilité de cette statistique sous H₀ pour trouver la p-value. Si la p-value est inférieure ou égale au niveau de significativité α défini à l’avance (le plus souvent 0.05), on rejette H₀ et on déclare le résultat statistiquement significatif. Les différentes statistiques de test suivent des lois de probabilité différentes. La statistique Z suit une loi normale standard et est utilisée lorsque l’écart-type de la population est connu ou que l’échantillon est très grand. La statistique t suit une loi t de Student avec un nombre précis de degrés de liberté (df = n − 1 pour un test à un échantillon) et est utilisée pour des échantillons de petite à moyenne taille lorsque l’écart-type de la population est inconnu. La statistique F suit une loi F avec degrés de liberté du numérateur et du dénominateur, et constitue la base de l’ANOVA et du test F d’égalité des variances. La statistique khi-deux suit une loi du khi-deux avec df degrés de liberté et est utilisée pour les tests d’indépendance dans les tableaux de contingence et les tests d’ajustement. Le type de queue détermine quelle région de la distribution est utilisée pour calculer la p-value. Un test bilatéral convient lorsque l’hypothèse alternative n’est pas directionnelle (H₁: μ ≠ μ₀) et la p-value additionne les probabilités des deux extrêmes. Un test unilatéral à droite s’applique lorsque H₁ spécifie une direction positive (H₁: μ > μ₀), et un test unilatéral à gauche lorsque H₁ spécifie une direction négative (H₁: μ < μ₀). Pour les tests F et khi-deux, intrinsèquement unilatéraux en pratique (la statistique ne peut pas être négative), la valeur standard rapportée est la p-value de queue droite. Une erreur de compréhension essentielle et fréquente consiste à croire que la p-value est la probabilité que H₀ soit vraie. Ce n’est pas le cas. La p-value est une probabilité conditionnelle : P(données aussi extrêmes | H₀ vraie). Elle ne dit rien sur la probabilité que H₀ ou H₁ soit vraie ; pour cela, il faut une inférence bayésienne avec probabilités a priori. Une autre idée reçue est que p < 0.05 signifie que l’effet est grand ou pratiquement important. La significativité statistique dépend de la taille de l’échantillon — avec un échantillon suffisamment grand, même un effet insignifiant donnera p < 0.05. Signalez toujours les tailles d’effet en plus des p-values. Le niveau de significativité α doit être décidé avant d’examiner les données et doit refléter le risque acceptable de faux positif (erreur de type I). Les conventions varient selon les domaines : α = 0.05 est la norme dans la plupart des recherches biomédicales et en sciences sociales, α = 0.01 est courant lorsque les faux positifs sont coûteux, et α = 5 × 10⁻⁸ est utilisé dans les études d’association pangénomiques pour tenir compte du grand nombre de tests effectués simultanément. Ce calculateur prend en charge les valeurs de α 0.01, 0.05 et 0.10.

Exemples résolus

Quatre exemples couvrant chaque type de test pris en charge, avec l’entrée, la p-value et le verdict de significativité.

Configuration du testP-valueVerdict à α = 0.05
Test Z, bilatéral, Z = 2.5, α = 0.05p = 0.0124p < 0.05 → significatif. La probabilité de |Z| ≥ 2.5 sous H₀ est d’environ 1.24 %.
Test t, queue droite, t = 2.1, df = 15, α = 0.05p = 0.0267p < 0.05 → significatif. Un test t unilatéral avec 15 df et t = 2.1 donne p ≈ 0.027.
Khi-deux, queue droite, χ² = 18.3, df = 10, α = 0.01p = 0.0499p > 0.01 → non significatif à α = 0.01. Le même résultat est significatif à α = 0.05.
Test F, queue droite, F = 3.8, df1 = 2, df2 = 27, α = 0.05p = 0.0347p < 0.05 → significatif. Un rapport F d’ANOVA de 3.8 avec 2 et 27 degrés de liberté.

Comment utiliser le calculateur de p-value

  1. Choisissez le type de test statistique (Z, t, F ou khi-deux) correspondant à la manière dont votre statistique a été calculée.
  2. Choisissez le type de queue : bilatéral pour H₁: ≠, queue droite pour H₁: >, ou queue gauche pour H₁: <.
  3. Saisissez votre statistique de test dans le champ 'Statistique de test'. Pour les tests t, F et khi-deux, saisissez aussi les degrés de liberté (deux valeurs pour le test F).
  4. Réglez le niveau de significativité α. Cliquez sur Calculer pour obtenir la p-value et le verdict de significativité.
  5. Si p ≤ α, rejetez H₀ et présentez le résultat comme statistiquement significatif. Si p > α, ne rejetez pas H₀. Complétez toujours avec une taille d’effet.

Foire aux questions

Que mesure réellement la p-value ?
La p-value mesure la probabilité d’observer une statistique de test aussi extrême que celle calculée (ou plus extrême), en supposant l’hypothèse nulle vraie. Elle quantifie à quel point vos données sont surprenantes sous H₀. Elle ne mesure pas la probabilité que H₀ soit vraie, la taille de l’effet, ni la probabilité d’avoir commis une erreur.
Pourquoi α = 0.05 est-il le seuil conventionnel ?
Le seuil de 0.05 a été popularisé par Ronald Fisher dans les années 1920 comme une convention pratique, pas comme une vérité universelle. Il signifie que vous acceptez 5 % de risque de faux positif (rejeter une H₀ vraie). Les domaines utilisent des seuils différents : la physique des particules exige souvent p < 5×10⁻⁷, la génomique utilise généralement p < 5×10⁻⁸, et les essais cliniques emploient parfois α = 0.01. Le bon seuil dépend des coûts des faux positifs et des faux négatifs dans votre domaine.
Quelle est la différence entre un test unilatéral et bilatéral ?
Un test bilatéral recherche une différence dans les deux sens et répartit α également entre les deux queues. Un test unilatéral concentre tout α sur une seule direction et offre plus de puissance pour détecter un effet dans cette direction, mais il n’est valide que si la direction de l’effet a été spécifiée avant de voir les données. Utiliser un test unilatéral pour sauver un résultat bilatéral limite est du p-hacking.
Comment les degrés de liberté sont-ils déterminés ?
Les degrés de liberté (df) reflètent le nombre d’informations indépendantes dans les données. Pour un test t à un échantillon, df = n − 1. Pour un test t à deux échantillons indépendants, df = n₁ + n₂ − 2. Pour un test khi-deux d’indépendance dans un tableau r × c, df = (r − 1)(c − 1). Pour un test F d’ANOVA à un facteur, le numérateur df = k − 1 (nombre de groupes moins 1) et le dénominateur df = N − k (nombre total d’observations moins nombre de groupes).
Qu’est-ce que le p-hacking et pourquoi est-ce nocif ?
Le p-hacking consiste à réaliser plusieurs tests, sous-groupes ou spécifications de modèle jusqu’à obtenir p < 0.05, puis à ne rapporter que ce résultat. Cela gonfle le vrai taux d’erreur de type I bien au-delà de α et produit des faux positifs qui ne se répliquent pas. Pour l’éviter, préenregistrez votre plan d’analyse, corrigez les comparaisons multiples (par exemple avec la correction de Bonferroni) et rapportez tous les tests effectués.
Une très petite p-value peut-elle signifier que le résultat est sans importance ?
Oui. Avec un échantillon suffisamment grand, même un effet minime (par exemple un médicament qui abaisse la tension de 0.1 mmHg) peut produire p < 0.001. La significativité statistique et la significativité pratique ne sont pas la même chose. Calculez et rapportez toujours une mesure de taille d’effet (d de Cohen, odds ratio, R², etc.) en plus de la p-value afin que les lecteurs puissent juger si l’effet est suffisamment important en pratique.