Calculadora de cercas IQR e outliers
Identifique outliers estatísticos no seu conjunto de dados usando o método das cercas do intervalo interquartil (IQR). Digite números separados por vírgulas para encontrar instantaneamente Q1, Q3, IQR e as duas cercas.
Digite seus valores separados por vírgulas, clique em Calcular e veja a cerca superior, a cerca inferior e quaisquer outliers no conjunto de dados.
Calculadora de cercas IQR e outliers
Identifique outliers estatísticos no seu conjunto de dados usando o método das cercas do intervalo interquartil (IQR). Digite números separados por vírgulas para encontrar instantaneamente Q1, Q3, IQR e as duas cercas.
Sobre a calculadora de cerca superior e inferior
O método da cerca superior e inferior é a técnica padrão para identificar outliers em um conjunto de dados usando o intervalo interquartil (IQR). Desenvolvido como parte da estrutura de análise exploratória de dados de John Tukey em 1977, ele oferece uma forma robusta e não paramétrica de sinalizar observações incomuns sem assumir que os dados seguem uma distribuição específica. O método é amplamente ensinado em cursos introdutórios de estatística e é a abordagem padrão de detecção de outliers em boxplots.
O cálculo começa ordenando o conjunto de dados e encontrando o primeiro e o terceiro quartis. Q1 (25º percentil) é o valor abaixo do qual estão 25% dos dados, enquanto Q3 (75º percentil) é o valor abaixo do qual estão 75%. O IQR é simplesmente Q3 menos Q1, representando a dispersão da metade central dos dados. Como o IQR ignora os valores extremos nas duas pontas da distribuição, ele é resistente aos próprios outliers que tenta detectar, uma propriedade que torna o método das cercas mais confiável do que métodos baseados na amplitude.
Depois que o IQR é calculado, as cercas são definidas em 1.5 × IQR abaixo de Q1 (cerca inferior) e 1.5 × IQR acima de Q3 (cerca superior). Qualquer ponto de dados abaixo da cerca inferior ou acima da cerca superior é classificado como outlier. O multiplicador 1.5 foi escolhido empiricamente por Tukey porque funciona bem para dados aproximadamente normais: em uma distribuição normal, essa regra marca cerca de 0.7% das observações como outliers, o que corresponde a valores a mais de aproximadamente 2.7 desvios padrão da média.
Para outliers mais extremos, algumas aplicações usam um multiplicador de 3 em vez de 1.5, rotulando esses pontos como outliers distantes ou extremos. Pontos fora da cerca de 1.5 × IQR, mas dentro da cerca de 3 × IQR, às vezes são chamados de outliers leves. Esta calculadora usa a regra padrão de 1.5 × IQR, apropriada para a maioria das análises exploratórias.
A detecção de outliers é uma etapa crítica na limpeza de dados, no controle de qualidade e na modelagem estatística. Na manufatura, uma medição de processo fora da cerca pode indicar uma unidade defeituosa ou um erro de medição. Em finanças, retornos extremos podem sinalizar erros de dados, anomalias de mercado ou eventos reais que exigem investigação. Em pesquisa clínica, valores fisiologicamente impossíveis são identificados e revisados. Em aprendizado de máquina, outliers podem distorcer o treinamento do modelo se não forem tratados.
É importante lembrar que outliers estatísticos não são necessariamente valores errados. Um outlier é simplesmente uma observação incomumente distante da maior parte dos dados segundo a regra do IQR. É preciso investigar para determinar se o valor representa um evento extremo real, um erro de medição ou um erro de entrada de dados.
Exemplos de cerca superior e inferior
Exemplos resolvidos passo a passo mostrando como o método das cercas identifica outliers em conjuntos de dados típicos.
| Conjunto de dados | Cercas e outliers | Interpretação |
|---|---|---|
| 10, 12, 14, 16, 18, 20, 100 | Inferior: 4 | Superior: 28 | Outlier: 100 | Q1=13, Q3=19, IQR=6. Cerca inferior = 13 − 9 = 4. Cerca superior = 19 + 9 = 28. O valor 100 excede a cerca superior e é marcado como outlier. |
| 5, 7, 8, 9, 10, 11, 12, 14 | Inferior: 2.5 | Superior: 16.5 | Sem outliers | Q1=7.75, Q3=11.25, IQR=3.5. As cercas são 2.5 e 16.5. Todos os valores (5 a 14) ficam dentro das cercas, portanto não há outliers. |
| 2, 3, 5, 7, 8, 9, 10, 11, 12, 50 | Inferior: −2.375 | Superior: 18.625 | Outlier: 50 | Q1=5.5, Q3=10.75, IQR=5.25. Cerca superior = 10.75 + 7.875 = 18.625. O valor 50 está bem acima da cerca superior e é um outlier claro. |
Como usar a calculadora de cercas
- Digite os valores no campo de entrada, separados por vírgulas ou espaços. Você precisa de pelo menos 4 valores para calcular quartis significativos.
- Clique em Calcular para obter Q1, Q3, o IQR, a cerca inferior (Q1 − 1.5 × IQR) e a cerca superior (Q3 + 1.5 × IQR).
- Revise os valores de cerca destacados: qualquer ponto de dados abaixo da cerca inferior ou acima da cerca superior é um outlier.
- Confira a seção Outliers para ver os valores específicos marcados listados explicitamente.
- Clique em Redefinir para limpar a entrada e começar de novo com um novo conjunto de dados.
Perguntas frequentes sobre cerca superior e inferior
O que são as cercas superior e inferior?
A cerca superior é Q3 + 1.5 × IQR e a cerca inferior é Q1 − 1.5 × IQR. Qualquer ponto de dados fora dessas cercas é considerado um outlier. As cercas criam um intervalo que contém a dispersão esperada de uma distribuição aproximadamente em forma de sino.
Por que usar 1.5 vez o IQR?
O multiplicador 1.5 foi escolhido por John Tukey porque é aproximadamente ideal para detectar outliers em dados normais mantendo baixa a taxa de falsos positivos. Em uma distribuição normal, ele marca cerca de 0.7% das observações. Dobrar o multiplicador para 3 captura apenas outliers extremos.
O que é o IQR e como ele é calculado?
O IQR (intervalo interquartil) é Q3 menos Q1 e representa a dispersão dos 50% centrais dos dados. Ele é calculado ordenando os dados, encontrando o 25º percentil (Q1) e o 75º percentil (Q3) e depois subtraindo. O IQR é resistente a outliers porque ignora os 25% superiores e inferiores dos valores.
Um outlier significa que os dados estão errados?
Não necessariamente. Um outlier é simplesmente uma observação incomumente extrema em relação à maior parte dos dados. Pode ser um evento extremo real, um erro de medição ou um erro de entrada de dados. Cada valor marcado deve ser investigado no contexto antes de ser removido ou corrigido.
Como as cercas se relacionam com boxplots?
As cercas superior e inferior definem os bigodes em um boxplot padrão de Tukey. A caixa cobre o IQR (Q1 a Q3), a linha dentro da caixa é a mediana, e os bigodes se estendem até os pontos de dados mais extremos que ainda estão dentro das cercas. Pontos além dos bigodes são plotados individualmente como pontos outliers.
O método das cercas é adequado para conjuntos de dados pequenos?
O método funciona melhor com pelo menos 10 a 20 observações. Com menos valores, as estimativas dos quartis são imprecisas e as cercas podem ser pouco confiáveis. Para conjuntos de dados muito pequenos, considere examinar todos os valores visualmente em vez de depender apenas da regra automática das cercas.