Calculateur de valeurs aberrantes - Détecter avec la méthode IQR

Repérez les valeurs aberrantes dans n’importe quel jeu de données grâce à la méthode de l’écart interquartile — choisissez instantanément une détection légère (1,5×IQR) ou extrême (3×IQR).

Saisissez une liste de nombres séparés par des virgules, sélectionnez votre méthode de détection des valeurs aberrantes, puis obtenez Q1, Q3, IQR, les bornes et la liste des valeurs aberrantes.

Calculateur de valeurs aberrantes - Détecter avec la méthode IQR
Repérez les valeurs aberrantes dans n’importe quel jeu de données grâce à la méthode de l’écart interquartile — choisissez instantanément une détection légère (1,5×IQR) ou extrême (3×IQR).

À propos du calculateur de valeurs aberrantes

Une valeur aberrante est un point de données situé à une distance anormale des autres valeurs d’un jeu de données. En analyse statistique, les valeurs aberrantes peuvent fausser des indicateurs comme la moyenne et l’écart type, gonfler les estimations de variance et violer les hypothèses des tests paramétriques. Les identifier tôt est une étape essentielle de l’analyse exploratoire, du contrôle qualité et du prétraitement pour le machine learning. La méthode la plus utilisée pour détecter les valeurs aberrantes repose sur l’écart interquartile (IQR), c’est-à-dire la différence entre le troisième quartile (Q3) et le premier quartile (Q1). Cette méthode est robuste car l’IQR, contrairement à la moyenne et à l’écart type, n’est pas lui-même déformé par les valeurs extrêmes. La formule des deux bornes est : borne inférieure = Q1 − k × IQR et borne supérieure = Q3 + k × IQR. Tout point de données situé en dehors de ces bornes est classé comme valeur aberrante. Le multiplicateur k détermine la sévérité du signalement. Le choix le plus courant est k = 1,5, valeur par défaut des diagrammes en boîte, qui identifie ce qu’on appelle parfois des valeurs aberrantes « légères » — des valeurs qui s’écartent nettement de la masse des données, mais qui peuvent encore avoir une explication valable. Avec k = 3,0, le critère est plus strict ; seules les valeurs aberrantes « extrêmes » sont signalées — des valeurs si éloignées de la distribution principale qu’elles représentent presque certainement des erreurs, des anomalies ou des événements réellement rares. Pour calculer les quartiles, le calculateur trie d’abord les données par ordre croissant. Q1 correspond au 25e percentile et Q3 au 75e percentile du jeu trié. Lorsque la position du quartile tombe entre deux points, le calculateur effectue une interpolation linéaire pour produire un résultat fluide, conforme au comportement par défaut d’Excel et à de nombreuses conventions de logiciels statistiques. Détecter une valeur aberrante ne signifie pas la supprimer automatiquement. Avant de retirer ou de transformer une valeur détectée, il faut en rechercher la cause. Il peut s’agir d’une erreur de saisie (un chiffre mal tapé), d’une erreur de mesure (un instrument défectueux), d’une erreur d’échantillonnage (une valeur provenant d’une autre population) ou d’une observation extrême réelle, importante sur le plan scientifique et à conserver. Par exemple, en détection de fraude, le point de données le plus important est souvent la valeur aberrante. En recherche clinique, le patient présentant la réponse la plus extrême peut être le plus informatif. Documentez toujours votre décision et, en cas de doute, présentez les résultats avec et sans la valeur aberrante pour montrer la sensibilité. La méthode IQR est non paramétrique, ce qui signifie qu’elle ne suppose aucune forme particulière pour la distribution sous-jacente. Elle est donc particulièrement adaptée aux distributions asymétriques, aux petits échantillons et aux données comportant plusieurs groupes. Pour des données approximativement normales avec de grands échantillons, la méthode du score Z (signalement des valeurs situées à plus de 2 ou 3 écarts types de la moyenne) constitue une alternative, mais le score Z est lui-même influencé par les valeurs aberrantes qu’il cherche à détecter, ce qui rend l’approche IQR généralement plus fiable.

Exemples pratiques

Trois jeux de données illustrant une valeur aberrante unique, plusieurs valeurs aberrantes et un jeu de données propre sans valeurs aberrantes.

Jeu de donnéesValeurs aberrantes (1,5×IQR)Valeurs clés
10, 12, 14, 15, 16, 18, 20, 5050Q1=13,5, Q3=18,5, IQR=5, borne supérieure=26. La valeur 50 dépasse 26 et est signalée comme valeur aberrante.
1, 25, 28, 30, 32, 35, 38, 1001, 100Q1=27,25, Q3=35,75, IQR=8,5, bornes : 14,5 à 48,5. 1 et 100 sont tous deux hors de ces limites.
10, 20, 30, 40, 50, 60, 70, 80NoneUn espacement uniforme signifie qu’aucun point n’est à plus de 1,5×IQR de la borne. Toutes les valeurs sont propres.

Comment utiliser le calculateur de valeurs aberrantes

  1. Saisissez ou collez vos données dans le champ sous forme de liste de nombres séparés par des virgules. Les entiers, décimales et nombres négatifs sont acceptés.
  2. Choisissez « Valeurs aberrantes légères (1,5 × IQR) » pour l’analyse standard utilisée dans les boîtes à moustaches, ou « Valeurs aberrantes extrêmes (3,0 × IQR) » pour ne signaler que les anomalies les plus sévères.
  3. Cliquez sur Calculer. L’outil affiche Q1, Q3, IQR, les bornes inférieure et supérieure, ainsi que le nombre de valeurs aberrantes.
  4. Consultez la liste des « Valeurs aberrantes détectées ». Examinez chaque valeur signalée avant de décider de la supprimer ou de la conserver.
  5. Le jeu de données nettoyé (trié et sans valeurs aberrantes) s’affiche ci-dessous pour un copier-coller rapide dans votre analyse.

Questions fréquentes

Qu’est-ce que la méthode IQR pour détecter les valeurs aberrantes ?
La méthode IQR (écart interquartile) calcule deux bornes : Q1 − 1,5×IQR et Q3 + 1,5×IQR. Tout point de données situé en dehors de ces bornes est signalé comme valeur aberrante. La méthode est robuste car Q1, Q3 et IQR ne sont pas influencés par les valeurs aberrantes elles-mêmes, contrairement à la moyenne et à l’écart type.
Dois-je toujours supprimer les valeurs aberrantes ?
Non. Il faut enquêter avant de supprimer. Les valeurs aberrantes peuvent représenter des données réelles et importantes — une transaction frauduleuse, une découverte scientifique nouvelle ou un défaut de fabrication digne d’étude. Ne les supprimez que si vous avez une raison valable, comme une erreur de saisie confirmée. Signalez toujours les suppressions dans votre analyse.
Quelle est la différence entre valeurs aberrantes légères et extrêmes ?
Les valeurs aberrantes légères se situent entre 1,5×IQR et 3×IQR au-delà d’un quartile. Les valeurs aberrantes extrêmes dépassent 3×IQR. Les diagrammes en boîte affichent généralement les valeurs aberrantes légères sous forme de cercles vides et les extrêmes sous forme d’étoiles ou de cercles pleins. Pour la plupart des analyses exploratoires, le seuil 1,5×IQR est la norme.
Ce calculateur fonctionne-t-il avec des nombres négatifs ?
Oui. La méthode IQR est indépendante de l’échelle et fonctionne correctement avec n’importe quelle combinaison de valeurs positives, nulles ou négatives. Il suffit d’inclure les nombres négatifs dans votre liste séparée par des virgules, par exemple : −20, 5, 8, 9, 10, 12, 15.
Quel est le nombre minimal de points de données requis ?
Le calculateur nécessite au moins 4 points de données pour calculer des quartiles et un IQR significatifs. Pour de très petits échantillons (moins de 10 à 15 valeurs), les bornes peuvent varier fortement et une valeur aberrante détectée doit être interprétée avec prudence.
Comment cette méthode se compare-t-elle à l’approche Z-score ?
La méthode Z-score signale les valeurs situées à plus de 2 ou 3 écarts types de la moyenne. Elle suppose des données approximativement normales et est sensible aux valeurs aberrantes qu’elle cherche à détecter, car les valeurs extrêmes gonflent la moyenne et l’écart type. La méthode IQR ne suppose pas la normalité et est donc préférable pour les données asymétriques, les distributions à queues épaisses et les petits ou moyens échantillons.