Q: Quelle est la différence entre un test unilatéral et bilatéral ?

Un test bilatéral recherche une différence dans les deux sens et répartit α également entre les deux queues. Un test unilatéral concentre tout α sur une seule direction et offre plus de puissance pour détecter un effet dans cette direction, mais il n’est valide que si la direction de l’effet a été spécifiée avant de voir les données. Utiliser un test unilatéral pour sauver un résultat bilatéral limite est du p-hacking.

Q: Comment les degrés de liberté sont-ils déterminés ?

Les degrés de liberté (df) reflètent le nombre d’informations indépendantes dans les données. Pour un test t à un échantillon, df = n − 1. Pour un test t à deux échantillons indépendants, df = n₁ + n₂ − 2. Pour un test khi-deux d’indépendance dans un tableau r × c, df = (r − 1)(c − 1). Pour un test F d’ANOVA à un facteur, le numérateur df = k − 1 (nombre de groupes moins 1) et le dénominateur df = N − k (nombre total d’observations moins nombre de groupes).

Q: Qu’est-ce que le p-hacking et pourquoi est-ce nocif ?

Le p-hacking consiste à réaliser plusieurs tests, sous-groupes ou spécifications de modèle jusqu’à obtenir p < 0.05, puis à ne rapporter que ce résultat. Cela gonfle le vrai taux d’erreur de type I bien au-delà de α et produit des faux positifs qui ne se répliquent pas. Pour l’éviter, préenregistrez votre plan d’analyse, corrigez les comparaisons multiples (par exemple avec la correction de Bonferroni) et rapportez tous les tests effectués.

Q: Une très petite p-value peut-elle signifier que le résultat est sans importance ?

Oui. Avec un échantillon suffisamment grand, même un effet minime (par exemple un médicament qui abaisse la tension de 0.1 mmHg) peut produire p < 0.001. La significativité statistique et la significativité pratique ne sont pas la même chose. Calculez et rapportez toujours une mesure de taille d’effet (d de Cohen, odds ratio, R², etc.) en plus de la p-value afin que les lecteurs puissent juger si l’effet est suffisamment important en pratique.

Question 1

Que mesure réellement la p-value ?

Accepted Answer

La p-value mesure la probabilité d’observer une statistique de test aussi extrême que celle calculée (ou plus extrême), en supposant l’hypothèse nulle vraie. Elle quantifie à quel point vos données sont surprenantes sous H₀. Elle ne mesure pas la probabilité que H₀ soit vraie, la taille de l’effet, ni la probabilité d’avoir commis une erreur.

Question 2

Pourquoi α = 0.05 est-il le seuil conventionnel ?

Accepted Answer

Le seuil de 0.05 a été popularisé par Ronald Fisher dans les années 1920 comme une convention pratique, pas comme une vérité universelle. Il signifie que vous acceptez 5 % de risque de faux positif (rejeter une H₀ vraie). Les domaines utilisent des seuils différents : la physique des particules exige souvent p < 5×10⁻⁷, la génomique utilise généralement p < 5×10⁻⁸, et les essais cliniques emploient parfois α = 0.01. Le bon seuil dépend des coûts des faux positifs et des faux négatifs dans votre domaine.

Question 3

Quelle est la différence entre un test unilatéral et bilatéral ?

Accepted Answer

Un test bilatéral recherche une différence dans les deux sens et répartit α également entre les deux queues. Un test unilatéral concentre tout α sur une seule direction et offre plus de puissance pour détecter un effet dans cette direction, mais il n’est valide que si la direction de l’effet a été spécifiée avant de voir les données. Utiliser un test unilatéral pour sauver un résultat bilatéral limite est du p-hacking.

Question 4

Comment les degrés de liberté sont-ils déterminés ?

Accepted Answer

Les degrés de liberté (df) reflètent le nombre d’informations indépendantes dans les données. Pour un test t à un échantillon, df = n − 1. Pour un test t à deux échantillons indépendants, df = n₁ + n₂ − 2. Pour un test khi-deux d’indépendance dans un tableau r × c, df = (r − 1)(c − 1). Pour un test F d’ANOVA à un facteur, le numérateur df = k − 1 (nombre de groupes moins 1) et le dénominateur df = N − k (nombre total d’observations moins nombre de groupes).

Question 5

Qu’est-ce que le p-hacking et pourquoi est-ce nocif ?

Accepted Answer

Le p-hacking consiste à réaliser plusieurs tests, sous-groupes ou spécifications de modèle jusqu’à obtenir p < 0.05, puis à ne rapporter que ce résultat. Cela gonfle le vrai taux d’erreur de type I bien au-delà de α et produit des faux positifs qui ne se répliquent pas. Pour l’éviter, préenregistrez votre plan d’analyse, corrigez les comparaisons multiples (par exemple avec la correction de Bonferroni) et rapportez tous les tests effectués.

Question 6

Une très petite p-value peut-elle signifier que le résultat est sans importance ?

Accepted Answer

Oui. Avec un échantillon suffisamment grand, même un effet minime (par exemple un médicament qui abaisse la tension de 0.1 mmHg) peut produire p < 0.001. La significativité statistique et la significativité pratique ne sont pas la même chose. Calculez et rapportez toujours une mesure de taille d’effet (d de Cohen, odds ratio, R², etc.) en plus de la p-value afin que les lecteurs puissent juger si l’effet est suffisamment important en pratique.

Configuration du test	P-value	Verdict à α = 0.05
Test Z, bilatéral, Z = 2.5, α = 0.05	p = 0.0124	p < 0.05 → significatif. La probabilité de \|Z\| ≥ 2.5 sous H₀ est d’environ 1.24 %.
Test t, queue droite, t = 2.1, df = 15, α = 0.05	p = 0.0267	p < 0.05 → significatif. Un test t unilatéral avec 15 df et t = 2.1 donne p ≈ 0.027.
Khi-deux, queue droite, χ² = 18.3, df = 10, α = 0.01	p = 0.0499	p > 0.01 → non significatif à α = 0.01. Le même résultat est significatif à α = 0.05.
Test F, queue droite, F = 3.8, df1 = 2, df2 = 27, α = 0.05	p = 0.0347	p < 0.05 → significatif. Un rapport F d’ANOVA de 3.8 avec 2 et 27 degrés de liberté.

Calculateur de p-value - tests Z, t, F et khi-deux

À propos du calculateur de p-value

Exemples résolus

Comment utiliser le calculateur de p-value

Foire aux questions