Como identificar um outlier? Você sabe? Primeiro vamos entender o significado de outlier na estatística e logo após como fazer a identificação e detecção:
Definição
Um outlier é uma observação que se encontra a uma distância anormal de outros valores em uma amostra aleatória de uma população.
Outliers
Muitos algoritmos de aprendizado de máquina são sensíveis ao intervalo e à distribuição de valores de atributos nos dados de entrada. Os valores discrepantes nos dados de entrada podem distorcer e enganar o processo de treinamento dos algoritmos de aprendizado de máquina, resultando em tempos de treinamento mais longos, modelos menos precisos e, em última análise, resultados mais pobres.
Mesmo antes de os modelos preditivos serem preparados nos dados de treinamento, os outliers podem resultar em representações enganosas e, por sua vez, em interpretações enganosas dos dados coletados. Outliers podem distorcer a distribuição sumária de valores de atributos em estatísticas descritivas como média e desvio padrão e em gráficos como histogramas e gráficos de dispersão, comprimindo o corpo dos dados.
Por fim, os outliers podem representar exemplos de instâncias de dados relevantes para o problema, como anomalias no caso de detecção de fraudes e segurança de computadores.
Modelagem Outlier
Outliers são valores extremos que ficam muito além das outras observações. Por exemplo, em uma distribuição normal, os outliers podem ser valores nas caudas da distribuição.
O processo de identificação de outliers tem muitos nomes em mineração de dados e aprendizado de máquina, como mineração outliers, modelagem outlier e detecção de novidade e detecção de anomalias.
Em seu livro Outlier Analysis, Aggarwal fornece uma taxonomia útil de métodos de detecção de outliers, como segue:
- Análise de valor extremo : Determine as caudas estatísticas da distribuição subjacente dos dados. Por exemplo, métodos estatísticos, como os escores z, em dados univariados.
- Modelos probabilísticos e estatísticos : Determine instâncias improváveis de um modelo probabilístico dos dados. Por exemplo, modelos de mistura gaussiana otimizados usando a maximização de expectativa.
- Modelos Lineares : Métodos de projeção que modelam os dados em dimensões inferiores usando correlações lineares. Por exemplo, análise de componentes principais e dados com grandes erros residuais podem ser outliers.
- Modelos baseados em proximidade : instâncias de dados que são isolados da massa dos dados, conforme determinado pela análise de cluster, densidade ou vizinho mais próximo.
- Modelos teóricos de informações : os outliers são detectados como instâncias de dados que aumentam a complexidade (tamanho mínimo do código) do conjunto de dados.
- Detecção de valores discrepantes de alta dimensão : os métodos que pesquisam subespaços para valores discrepantes fornecem a divisão de medidas baseadas em distância em dimensões mais altas (maldição de dimensionalidade).
Aggarwal comenta que a interpretabilidade de um modelo outlier é criticamente importante. Contexto ou lógica é necessário em torno das decisões por que uma instância de dados específica é ou não é um outlier.
Em seu capítulo contribuinte para o Data Mining e o Knowledge Discovery Handbook, Irad Ben-Gal propõe uma taxonomia de modelos outliers como univariados ou multivariados e paramétricos e não-paramétricos. Essa é uma maneira útil de estruturar métodos com base no que é conhecido sobre os dados. Por exemplo:
- Você é considerado com outliers em um ou mais de um atributo (métodos univariados ou multivariados)?
- Você pode assumir uma distribuição estatística a partir da qual as observações foram amostradas ou não (paramétricas ou não-paramétricas)?
Inicio
Existem muitos métodos e muitas pesquisas colocadas na detecção de outliers. Comece fazendo algumas suposições e experimentos de design onde você pode observar claramente os efeitos dessas suposições em relação a alguma medida de desempenho ou precisão.
Eu recomendo trabalhar através de um processo escalonado de análise de valor extremo, métodos de proximidade e métodos de projeção.
Análise Extrema de Valor
Você não precisa conhecer métodos estatísticos avançados para procurar, analisar e filtrar outliers de seus dados. Comece de maneira simples com uma análise de valor extremo.
- Concentre-se em métodos univariados
- Visualize os dados usando gráficos de dispersão, histogramas e gráficos de caixa e bigodes e procure valores extremos
- Assumir uma distribuição (gaussiana) e procurar valores maiores que 2 ou 3 desvios padrão da média ou 1,5 vezes do primeiro ou terceiro quartil
- Filtrar outliers candidatos do conjunto de dados de treinamento e avaliar o desempenho de seus modelos
Métodos de proximidade
Depois de explorar métodos mais simples de valores extremos, considere migrar para métodos baseados em proximidade.
- Use métodos de agrupamento para identificar os clusters naturais nos dados (como o algoritmo k-means)
- Identifique e marque os centróides de cluster
- Identificar instâncias de dados que são uma distância fixa ou uma distância percentual dos centróides de cluster
- Filtrar outliers candidatos do conjunto de dados de treinamento e avaliar o desempenho de seus modelos
Métodos de Projeção
Os métodos de projeção são relativamente simples de aplicar e destacam rapidamente os valores externos.
- Use métodos de projeção para resumir seus dados em duas dimensões (como mapeamento de PCA, SOM ou Sammon)
- Visualize o mapeamento e identifique os outliers manualmente
- Use medidas de proximidade de valores projetados ou vetores codebook para identificar outliers
- Filtrar outliers candidatos do conjunto de dados de treinamento e avaliar o desempenho de seus modelos
Métodos robustos para outliers
Uma estratégia alternativa é mudar para modelos robustos a outliers. Existem formas robustas de regressão que minimizam os erros medianos de mínimos quadrados em vez da média (chamada de regressão robusta), mas são mais computacionalmente intensivos. Existem também métodos como árvores de decisão que são robustos para outliers.
Você pode verificar alguns métodos que são robustos para outliers. Se houver benefícios significativos de precisão do modelo, pode haver uma oportunidade de modelar e filtrar outliers de seus dados de treinamento.
Recursos
Há muitas páginas que discutem a detecção de exceções, mas recomendo ler um bom livro sobre o assunto, algo mais autoritário. Mesmo olhando através de livros introdutórios sobre aprendizado de máquina e mineração de dados não será tão útil para você. Para um tratamento clássico de outliers por estatísticos, confira:
- Regressão Robusta e Detecção de Outlier por Rousseeuw e Leroy publicados em 2003
- Outliers in Statistical Data por Barnett e Lewis, publicado em 1994
- Identificação de Outliers uma monografia de Hawkins publicada em 1980
Para um tratamento moderno de outliers pela comunidade de mineração de dados, consulte:
- Análise Outlier por Aggarwal, publicado em 2013
- Capítulo 7 de Irad Ben-Gal no Data Mining e no Knowledge Discovery Handbook editado por Maimon e Rokach, publicado em 2010,
Espero que tenha ajudado! Você pode encontrar diversos cursos que trabalhamos com Outliers aqui no Portal Data Science.