Como identificar Outlier nos seus dados?

outlier

Compartilhe esse post

Como identificar um outlier? Você sabe? Primeiro vamos entender o significado de outlier na estatística e logo após como fazer a identificação e detecção:

Definição

Um outlier é uma observação que se encontra a uma distância anormal de outros valores em uma amostra aleatória de uma população.

Outliers

Muitos algoritmos de aprendizado de máquina são sensíveis ao intervalo e à distribuição de valores de atributos nos dados de entrada. Os valores discrepantes nos dados de entrada podem distorcer e enganar o processo de treinamento dos algoritmos de aprendizado de máquina, resultando em tempos de treinamento mais longos, modelos menos precisos e, em última análise, resultados mais pobres.

Outlier

Mesmo antes de os modelos preditivos serem preparados nos dados de treinamento, os outliers podem resultar em representações enganosas e, por sua vez, em interpretações enganosas dos dados coletados. Outliers podem distorcer a distribuição sumária de valores de atributos em estatísticas descritivas como média e desvio padrão e em gráficos como histogramas e gráficos de dispersão, comprimindo o corpo dos dados.

Por fim, os outliers podem representar exemplos de instâncias de dados relevantes para o problema, como anomalias no caso de detecção de fraudes e segurança de computadores.

Modelagem Outlier

Outliers são valores extremos que ficam muito além das outras observações. Por exemplo, em uma distribuição normal, os outliers podem ser valores nas caudas da distribuição.

O processo de identificação de outliers tem muitos nomes em mineração de dados e aprendizado de máquina, como mineração outliers, modelagem outlier e detecção de novidade e detecção de anomalias.

Em seu livro  Outlier Analysis, Aggarwal fornece uma taxonomia útil de métodos de detecção de outliers, como segue:

  • Análise de valor extremo : Determine as caudas estatísticas da distribuição subjacente dos dados. Por exemplo, métodos estatísticos, como os escores z, em dados univariados.
  • Modelos probabilísticos e estatísticos : Determine instâncias improváveis ​​de um modelo probabilístico dos dados. Por exemplo, modelos de mistura gaussiana otimizados usando a maximização de expectativa.
  • Modelos Lineares : Métodos de projeção que modelam os dados em dimensões inferiores usando correlações lineares. Por exemplo, análise de componentes principais e dados com grandes erros residuais podem ser outliers.
  • Modelos baseados em proximidade : instâncias de dados que são isolados da massa dos dados, conforme determinado pela análise de cluster, densidade ou vizinho mais próximo.
  • Modelos teóricos de informações : os outliers são detectados como instâncias de dados que aumentam a complexidade (tamanho mínimo do código) do conjunto de dados.
  • Detecção de valores discrepantes de alta dimensão : os métodos que pesquisam subespaços para valores discrepantes fornecem a divisão de medidas baseadas em distância em dimensões mais altas (maldição de dimensionalidade).

Aggarwal comenta que a interpretabilidade de um modelo outlier é criticamente importante. Contexto ou lógica é necessário em torno das decisões por que uma instância de dados específica é ou não é um outlier.

Em seu capítulo contribuinte para o  Data Mining e o Knowledge Discovery Handbook, Irad Ben-Gal propõe uma taxonomia de modelos outliers como univariados ou multivariados e paramétricos e não-paramétricos. Essa é uma maneira útil de estruturar métodos com base no que é conhecido sobre os dados. Por exemplo:

  • Você é considerado com outliers em um ou mais de um atributo (métodos univariados ou multivariados)?
  • Você pode assumir uma distribuição estatística a partir da qual as observações foram amostradas ou não (paramétricas ou não-paramétricas)?

Inicio

Existem muitos métodos e muitas pesquisas colocadas na detecção de outliers. Comece fazendo algumas suposições e experimentos de design onde você pode observar claramente os efeitos dessas suposições em relação a alguma medida de desempenho ou precisão.

Eu recomendo trabalhar através de um processo escalonado de análise de valor extremo, métodos de proximidade e métodos de projeção.

Análise Extrema de Valor

Você não precisa conhecer métodos estatísticos avançados para procurar, analisar e filtrar outliers de seus dados. Comece de maneira simples com uma análise de valor extremo.

  • Concentre-se em métodos univariados
  • Visualize os dados usando gráficos de dispersão, histogramas e gráficos de caixa e bigodes e procure valores extremos
  • Assumir uma distribuição (gaussiana) e procurar valores maiores que 2 ou 3 desvios padrão da média ou 1,5 vezes do primeiro ou terceiro quartil
  • Filtrar outliers candidatos do conjunto de dados de treinamento e avaliar o desempenho de seus modelos

Métodos de proximidade

Depois de explorar métodos mais simples de valores extremos, considere migrar para métodos baseados em proximidade.

  • Use métodos de agrupamento para identificar os clusters naturais nos dados (como o algoritmo k-means)
  • Identifique e marque os centróides de cluster
  • Identificar instâncias de dados que são uma distância fixa ou uma distância percentual dos centróides de cluster
  • Filtrar outliers candidatos do conjunto de dados de treinamento e avaliar o desempenho de seus modelos

Métodos de Projeção

Os métodos de projeção são relativamente simples de aplicar e destacam rapidamente os valores externos.

  • Use métodos de projeção para resumir seus dados em duas dimensões (como mapeamento de PCA, SOM ou Sammon)
  • Visualize o mapeamento e identifique os outliers manualmente
  • Use medidas de proximidade de valores projetados ou vetores codebook para identificar outliers
  • Filtrar outliers candidatos do conjunto de dados de treinamento e avaliar o desempenho de seus modelos

Métodos robustos para outliers

Uma estratégia alternativa é mudar para modelos robustos a outliers. Existem formas robustas de regressão que minimizam os erros medianos de mínimos quadrados em vez da média (chamada de regressão robusta), mas são mais computacionalmente intensivos. Existem também métodos como árvores de decisão que são robustos para outliers.

Você pode verificar alguns métodos que são robustos para outliers. Se houver benefícios significativos de precisão do modelo, pode haver uma oportunidade de modelar e filtrar outliers de seus dados de treinamento.

Recursos

Há muitas páginas que discutem a detecção de exceções, mas recomendo ler um bom livro sobre o assunto, algo mais autoritário. Mesmo olhando através de livros introdutórios sobre aprendizado de máquina e mineração de dados não será tão útil para você. Para um tratamento clássico de outliers por estatísticos, confira:

  • Regressão Robusta e Detecção de Outlier  por Rousseeuw e Leroy publicados em 2003
  • Outliers in Statistical Data  por Barnett e Lewis, publicado em 1994
  • Identificação de Outliers  uma monografia de Hawkins publicada em 1980

Para um tratamento moderno de outliers pela comunidade de mineração de dados, consulte:

  • Análise Outlier  por Aggarwal, publicado em 2013
  • Capítulo 7 de Irad Ben-Gal no  Data Mining e no Knowledge Discovery Handbook editado por Maimon e Rokach, publicado em 2010,

 

Espero que tenha ajudado! Você pode encontrar diversos cursos que trabalhamos com Outliers aqui no Portal Data Science.

Inscreva-se

Seja atualizado e aprenda com os melhores

Mais para explorar

100 perguntas htm eng

Master the data science interview 100 MOST COMMON QUESTIONS AND ANSWERS ASKED IN INTERVIEWS – A COMPLETE GUIDE TO BOOST YOUR CAREER Yes, I want! BECOME A DATA SCIENTIST Data Science is revolutionizing the world of business and technology. With our eBook “Master Data Science: A Complete Guide to Boost Your Career,” you will have access to comprehensive content that will help you enter and thrive in this promising field.   WHAT WILL YOU LEARN? Fundamentals of Statistics and Probability Databases and SQL Python for Data Analysis Machine Learning and its Algorithms Natural Language Processing and its Applications Data Visualization and Design Big Data and Related Tools Feature Engineering and Model Selection Purchase the eBook now and receive Over 200 pages of high-quality content Explanations and examples Tips to improve your skills and increase your chances in interviews INVEST IN YOUR FUTURE Don’t miss this opportunity to deepen your knowledge and stand out in the job market. Purchase the eBook “Master Data Science: A Complete Guide to Boost Your Career” right now and start your journey towards success in the field of Data Science! TAKE ADVANTAGE OF THE PROMOTION ONLY $ 9,99 Yes, i want

100 perguntas htm

domine a entrevista de ciencia de dados 100 perguntas e respostas mais frequentes feitas em entrevistas – um guia completo para impulsionar sua carreira Eu quero seja um cientista de dados   A Ciência de Dados está revolucionando o mundo dos negócios e da tecnologia. Com nosso eBook “Domine a Ciência de Dados: Um Guia Completo para Impulsionar sua Carreira”, você terá acesso a um conteúdo abrangente que o ajudará a ingressar e prosperar nesta área promissora. o que você vai aprender? Fundamentos da Estatística e Probabilidade Bancos de Dados e SQL Python para Análise de Dados Aprendizado de Máquina e seus Algoritmos Processamento de Linguagem Natural e suas Aplicações Visualização de Dados e Design Big Data e Ferramentas Relacionadas Engenharia de Recursos e Seleção de Modelos Adquira o eBook agora e receba   Mias de 200 páginas de conteúdo de alta qualidade   Explicações e exemplos   Dicas para aprimorar suas habilidades e aumentar suas chances em entrevistas invista no seu futuro   Não perca esta oportunidade de aprofundar seus conhecimentos e se destacar no mercado de trabalho. Adquira o eBook “Domine a Ciência de Dados: Um Guia Completo para Impulsionar sua Carreira” agora mesmo e comece sua jornada rumo ao sucesso na área de Ciência de Dados! aproveite a promoção Condições parceladas APENAS R$ 27,90 EU QUERO