ileoh

o que é data mining

O que é data mining? Como analistas descobrem insights

Data Mining é o processo automatizado de classificação de grandes conjuntos de dados para identificar tendências e padrões e estabelecer relações   As organizações hoje estão reunindo volumes cada vez maiores de informações de todos os tipos de fontes, incluindo sites, aplicativos corporativos, mídias sociais, dispositivos móveis e, cada vez mais, a Internet das coisas (IoT). A grande questão é: como você pode derivar o valor comercial real dessas informações? É aí que a mineração de dados pode contribuir de maneira significativa. Mas o que é data mining? A mineração de dados é o processo automatizado de classificação de grandes conjuntos de dados para identificar tendências e padrões e estabelecer relacionamentos, para resolver problemas de negócios ou gerar novas oportunidades por meio da análise dos dados Não é apenas uma questão de analisar os dados para ver o que aconteceu no passado para poder agir de forma inteligente no presente. As ferramentas e técnicas de mineração de dados permitem prever o que vai acontecer no futuro e agir de acordo para aproveitar as tendências futuras. O termo “mineração de dados” é usado de forma bastante ampla no setor de TI. Geralmente, aplica-se a uma variedade de atividades de processamento de dados em grande escala, como coleta, extração, armazenamento e análise de dados. Ele também pode abranger aplicativos e tecnologias de apoio à decisão, como inteligência artificial , aprendizado de máquina e business intelligence. Onde podemos aplicar Data Mining? A mineração de dados é usada em muitas áreas de negócios e pesquisa, incluindo desenvolvimento de produtos, vendas e marketing, genética e cibernética – para citar alguns. Se for usado da maneira correta, a mineração de dados combinada com a análise preditiva pode dar uma grande vantagem sobre os concorrentes que não estão usando essas ferramentas. Derivando o valor comercial da mineração de dados O valor real da mineração de dados vem da descoberta de gemas ocultas na forma de padrões e relacionamentos nos dados, que podem ser usados ​​para fazer previsões que podem ter um impacto significativo nos negócios. Por exemplo, se uma empresa determina que uma determinada campanha de marketing resultou em vendas extremamente altas de um modelo específico de um produto em certas partes do país, mas não em outras, ele pode reorientar a campanha no futuro para obter o máximo retorno. Os benefícios da tecnologia podem variar dependendo do tipo de negócio e seus objetivos. Por exemplo, os gerentes de vendas e marketing no varejo podem coletar informações de clientes de maneiras diferentes para melhorar as taxas de conversão do que as da indústria de serviços financeiros ou de companhias aéreas. Independentemente do setor, a mineração de dados aplicada aos padrões de vendas e ao comportamento do cliente no passado pode ser usada para criar modelos que prevejam vendas e comportamento futuros. Há também o potencial de mineração de dados para ajudar a eliminar atividades que podem prejudicar as empresas. Por exemplo, você pode usar a mineração de dados para aprimorar a segurança do produto ou detectar atividades fraudulentas em transações de serviços financeiros e de seguros. As aplicações da mineração de dados A mineração de dados pode ser aplicada a uma variedade de aplicativos em praticamente todos os setores. Os varejistas podem implementar a mineração de dados para identificar melhor quais produtos as pessoas provavelmente comprarão com base em seus hábitos de compra anteriores ou quais produtos provavelmente venderão em determinadas épocas do ano. Isso pode ajudar os comerciantes a planejar inventários e armazenar layouts. Os bancos e outros provedores de serviços financeiros podem extrair dados relacionados às contas, transações e preferências de canal de seus clientes para melhor atender às suas necessidades. Eles também podem coletar dados analisados ​​a partir de seus sites e interações de mídia social para ajudar a aumentar a fidelidade dos clientes existentes e atrair novos. As empresas de manufatura podem usar a mineração de dados para procurar padrões no processo de produção, para que possam identificar precisamente os gargalos e os métodos defeituosos e encontrar maneiras de aumentar a eficiência. Eles também podem aplicar o conhecimento da mineração de dados ao design de produtos e fazer ajustes com base no feedback das experiências do cliente. As instituições de ensino podem se beneficiar da mineração de dados, como a análise de conjuntos de dados para prever os futuros comportamentos de aprendizagem e o desempenho dos alunos, e depois usar esse conhecimento para melhorar os métodos de ensino ou os currículos. Os prestadores de cuidados de saúde podem extrair e analisar dados para determinar as melhores formas de prestar cuidados aos pacientes e reduzir custos. Com a ajuda da mineração de dados, eles podem prever quantos pacientes precisarão cuidar e que tipo de serviços esses pacientes precisarão. Nas ciências da vida, a mineração pode ser usada para coletar insights de dados biológicos massivos, para ajudar a desenvolver novos medicamentos e outros tratamentos. Em vários setores , incluindo assistência médica e varejo, você pode usar a mineração de dados para detectar fraudes e outros abusos – muito mais rapidamente do que com os métodos tradicionais para identificar essas atividades. Os principais componentes da mineração de dados O processo de mineração de dados inclui vários componentes distintos que atendem a diferentes necessidades: Pré-processando. Antes de poder aplicar algoritmos de mineração de dados, você precisa criar um conjunto de dados de destino. Uma fonte comum de dados é um data mart ou warehouse. Você precisa executar o pré-processamento para poder analisar os conjuntos de dados. Limpeza e preparação de dados. O conjunto de dados de destino deve ser limpo e preparado para remover “ruído”, endereçar valores ausentes, filtrar pontos de dados (para detecção de anomalias) para remover erros ou explorar mais, criar regras de segmentação e executar outras funções relacionadas à preparação de dados. . Aprendizagem de regras de associação (também conhecida como análise de cesta de mercado ). Essas ferramentas buscam relacionamentos entre variáveis ​​em um conjunto de dados, como determinar quais produtos em uma loja são frequentemente comprados juntos. Clustering Esse recurso de mineração de dados é usado para descobrir grupos e estruturas em conjuntos de dados que são, de alguma forma, semelhantes entre si, sem usar estruturas conhecidas nos dados. Classificação. As ferramentas que executam a classificação

O que é data mining? Como analistas descobrem insights Read More »

outlier

Como identificar Outlier nos seus dados?

Como identificar um outlier? Você sabe? Primeiro vamos entender o significado de outlier na estatística e logo após como fazer a identificação e detecção: Definição Um outlier é uma observação que se encontra a uma distância anormal de outros valores em uma amostra aleatória de uma população. Outliers Muitos algoritmos de aprendizado de máquina são sensíveis ao intervalo e à distribuição de valores de atributos nos dados de entrada. Os valores discrepantes nos dados de entrada podem distorcer e enganar o processo de treinamento dos algoritmos de aprendizado de máquina, resultando em tempos de treinamento mais longos, modelos menos precisos e, em última análise, resultados mais pobres. Mesmo antes de os modelos preditivos serem preparados nos dados de treinamento, os outliers podem resultar em representações enganosas e, por sua vez, em interpretações enganosas dos dados coletados. Outliers podem distorcer a distribuição sumária de valores de atributos em estatísticas descritivas como média e desvio padrão e em gráficos como histogramas e gráficos de dispersão, comprimindo o corpo dos dados. Por fim, os outliers podem representar exemplos de instâncias de dados relevantes para o problema, como anomalias no caso de detecção de fraudes e segurança de computadores. Modelagem Outlier Outliers são valores extremos que ficam muito além das outras observações. Por exemplo, em uma distribuição normal, os outliers podem ser valores nas caudas da distribuição. O processo de identificação de outliers tem muitos nomes em mineração de dados e aprendizado de máquina, como mineração outliers, modelagem outlier e detecção de novidade e detecção de anomalias. Em seu livro  Outlier Analysis, Aggarwal fornece uma taxonomia útil de métodos de detecção de outliers, como segue: Análise de valor extremo : Determine as caudas estatísticas da distribuição subjacente dos dados. Por exemplo, métodos estatísticos, como os escores z, em dados univariados. Modelos probabilísticos e estatísticos : Determine instâncias improváveis ​​de um modelo probabilístico dos dados. Por exemplo, modelos de mistura gaussiana otimizados usando a maximização de expectativa. Modelos Lineares : Métodos de projeção que modelam os dados em dimensões inferiores usando correlações lineares. Por exemplo, análise de componentes principais e dados com grandes erros residuais podem ser outliers. Modelos baseados em proximidade : instâncias de dados que são isolados da massa dos dados, conforme determinado pela análise de cluster, densidade ou vizinho mais próximo. Modelos teóricos de informações : os outliers são detectados como instâncias de dados que aumentam a complexidade (tamanho mínimo do código) do conjunto de dados. Detecção de valores discrepantes de alta dimensão : os métodos que pesquisam subespaços para valores discrepantes fornecem a divisão de medidas baseadas em distância em dimensões mais altas (maldição de dimensionalidade). Aggarwal comenta que a interpretabilidade de um modelo outlier é criticamente importante. Contexto ou lógica é necessário em torno das decisões por que uma instância de dados específica é ou não é um outlier. Em seu capítulo contribuinte para o  Data Mining e o Knowledge Discovery Handbook, Irad Ben-Gal propõe uma taxonomia de modelos outliers como univariados ou multivariados e paramétricos e não-paramétricos. Essa é uma maneira útil de estruturar métodos com base no que é conhecido sobre os dados. Por exemplo: Você é considerado com outliers em um ou mais de um atributo (métodos univariados ou multivariados)? Você pode assumir uma distribuição estatística a partir da qual as observações foram amostradas ou não (paramétricas ou não-paramétricas)? Inicio Existem muitos métodos e muitas pesquisas colocadas na detecção de outliers. Comece fazendo algumas suposições e experimentos de design onde você pode observar claramente os efeitos dessas suposições em relação a alguma medida de desempenho ou precisão. Eu recomendo trabalhar através de um processo escalonado de análise de valor extremo, métodos de proximidade e métodos de projeção. Análise Extrema de Valor Você não precisa conhecer métodos estatísticos avançados para procurar, analisar e filtrar outliers de seus dados. Comece de maneira simples com uma análise de valor extremo. Concentre-se em métodos univariados Visualize os dados usando gráficos de dispersão, histogramas e gráficos de caixa e bigodes e procure valores extremos Assumir uma distribuição (gaussiana) e procurar valores maiores que 2 ou 3 desvios padrão da média ou 1,5 vezes do primeiro ou terceiro quartil Filtrar outliers candidatos do conjunto de dados de treinamento e avaliar o desempenho de seus modelos Métodos de proximidade Depois de explorar métodos mais simples de valores extremos, considere migrar para métodos baseados em proximidade. Use métodos de agrupamento para identificar os clusters naturais nos dados (como o algoritmo k-means) Identifique e marque os centróides de cluster Identificar instâncias de dados que são uma distância fixa ou uma distância percentual dos centróides de cluster Filtrar outliers candidatos do conjunto de dados de treinamento e avaliar o desempenho de seus modelos Métodos de Projeção Os métodos de projeção são relativamente simples de aplicar e destacam rapidamente os valores externos. Use métodos de projeção para resumir seus dados em duas dimensões (como mapeamento de PCA, SOM ou Sammon) Visualize o mapeamento e identifique os outliers manualmente Use medidas de proximidade de valores projetados ou vetores codebook para identificar outliers Filtrar outliers candidatos do conjunto de dados de treinamento e avaliar o desempenho de seus modelos Métodos robustos para outliers Uma estratégia alternativa é mudar para modelos robustos a outliers. Existem formas robustas de regressão que minimizam os erros medianos de mínimos quadrados em vez da média (chamada de regressão robusta), mas são mais computacionalmente intensivos. Existem também métodos como árvores de decisão que são robustos para outliers. Você pode verificar alguns métodos que são robustos para outliers. Se houver benefícios significativos de precisão do modelo, pode haver uma oportunidade de modelar e filtrar outliers de seus dados de treinamento. Recursos Há muitas páginas que discutem a detecção de exceções, mas recomendo ler um bom livro sobre o assunto, algo mais autoritário. Mesmo olhando através de livros introdutórios sobre aprendizado de máquina e mineração de dados não será tão útil para você. Para um tratamento clássico de outliers por estatísticos, confira: Regressão Robusta e Detecção de Outlier  por Rousseeuw e Leroy publicados em 2003 Outliers in Statistical Data  por Barnett e Lewis, publicado em 1994 Identificação de Outliers  uma monografia de Hawkins publicada em 1980 Para um tratamento moderno de outliers pela comunidade de mineração de

Como identificar Outlier nos seus dados? Read More »

o que é machine learning

O que é Machine Learning?

Se você falar sobre Machine Learning com um amigo ou colega um dia, você corre o risco de alguém realmente perguntar: “ O que ‘diabos’ é aprendizado de máquina?“   Seguimento do post O objetivo deste post é dar-lhe algumas definições mais abrangentes para você pensar sobre e também uma definição acessível de uma linha que é fácil de lembrar. Começaremos vendo as definições padrão de Aprendizado de Máquina retiradas de livros-texto autorizados no campo. Em seguida vamos desenvolvendo uma definição de desenvolvedores de aprendizado de máquina e por fim uma definição de uma linha que podemos usar sempre que nos perguntarem: “O que é machine learning?”   Definições padrão de o que é machine learning Vamos começar examinando quatro livros didáticos sobre Machine Learning que são comumente usados ​​em cursos de nível universitário. Estas são nossas definições autorizadas e estabelecem nossa base para um pensamento mais profundo sobre o assunto. Eu escolhi estas quatro definições para destacar algumas perspectivas úteis e variadas no campo. Através da experiência, aprenderemos que o campo é realmente uma confusão de métodos e escolher uma perspectiva é a chave para progredir.   Significado de machine learning por Mitchell  Tom Mitchell em seu livro Machine Learning fornece uma definição na linha de abertura do prefácio: O campo do aprendizado de máquina está preocupado com a questão de como construir programas de computador que melhoram automaticamente com a experiência.   Eu gosto desta definição curta e doce e é a base para a definição dos desenvolvedores que criamos no final do post. Observe a menção de “ programas de computador ” e a referência a “ melhoria automatizada ”. Escreva programas que melhorem a si mesmos , é provocativo! Em sua introdução, ele fornece um pequeno formalismo que você verá muito repetido: Um programa de computador é dito para aprender com a experiência E com relação a alguma classe de tarefas T e medida de desempenho P , se o seu desempenho em tarefas em T , medida pelo P , melhora com a experiência E . Não deixe a definição de termos te assustar, este é um formalismo muito útil. Podemos usar esse formalismo como modelo e colocar E , T e P no topo das colunas em uma tabela e listar problemas complexos com menos ambigüidade. Ele poderia ser usado como uma ferramenta de design para nos ajudar a pensar claramente sobre quais dados coletar ( E ), quais decisões o software precisa tomar ( T ) e como avaliaremos seus resultados ( P ). Este poder é porque é frequentemente repetido como uma definição padrão. Guarde-o no bolso de trás.   Elementos de Aprendizagem Estatística Os elementos do aprendizado estatístico: mineração de dados, inferência e previsão  foram escritos por três estatísticos de Stanford e auto-descritos como uma estrutura estatística para organizar seu campo de investigação. No prefácio está escrito: Vastas quantidades de dados estão sendo geradas em muitos campos, e o trabalho dos estatísticos é dar sentido a tudo: extrair padrões e tendências importantes e entender “o que os dados dizem”. Nós chamamos esse aprendizado de dados. Eu entendo que o trabalho de um estatístico é usar as ferramentas de estatísticas para interpretar dados no contexto do domínio. Os autores parecem incluir todo o campo de Machine Learning como auxiliares nessa busca. Curiosamente, eles optaram por incluir ” Data Mining ” no subtítulo do livro. Os estatísticos aprendem com os dados, mas o software também, e aprendemos com as coisas que o software aprende. Das decisões tomadas e dos resultados alcançados pelos vários métodos de aprendizado de máquina.   Reconhecimento de padrões Bishop no prefácio de seu livro  Pattern Recognition e Machine Learning comenta: O reconhecimento de padrões tem suas origens na engenharia, enquanto o aprendizado de máquina cresceu a partir da ciência da computação. No entanto, essas atividades podem ser vistas como duas facetas do mesmo campo … Lendo isto, você tem a impressão de que Bishop veio a campo de uma perspectiva de engenharia e depois aprendeu e aproveitou a Ciência da Computação, assumindo os mesmos métodos. O reconhecimento de padrões é um termo de engenharia ou processamento de sinais. Esta é uma abordagem madura e deve ser replicada. De maneira mais ampla, independentemente do campo que reivindica um método, se ele atende às nossas necessidades aproximando-nos de um insight ou de um resultado “aprendendo com os dados”, podemos decidir chamar isso de aprendizado de máquina.   Uma perspectiva algorítmica de machine learning   Marsland fornece adotar a definição de Mitchell de Machine Learning em seu livro Machine Learning: An Algorithmic Perspective. Ele fornece uma nota convincente em seu prólogo que motiva sua escrita do livro: Uma das características mais interessantes do aprendizado de máquina é que ele está no limite de várias disciplinas acadêmicas, principalmente ciência da computação, estatística, matemática e engenharia. … O aprendizado de máquina é usualmente estudado como parte da inteligência artificial, o que o coloca firmemente na ciência da computação… entender por que esses algoritmos funcionam requer uma certa quantidade de sofisticação estatística e matemática que muitas vezes falta aos graduandos da ciência da computação. Isso é perspicaz e instrutivo. Em primeiro lugar, ele ressalta a natureza multidisciplinar do campo. Nós estávamos tendo um sentimento para isso a partir da definição acima, mas ele desenha um grande sublinhado vermelho para nós. A Aprendizagem de Máquina baseia-se em todos os tipos de ciências da informação. Em segundo lugar, ele ressalta o perigo de se agarrar a uma determinada perspectiva com muita força. Especificamente, o caso de um algoritmo que foge do funcionamento matemático interno de um método. Sem dúvida, o caso contrário do estatístico que foge das preocupações práticas de implementação e implantação é igualmente limitante.   Diagrama de Venn Drew Conway criou um bom Diagrama de Venn  em setembro de 2010 que pode ajudar. Em sua explicação, ele comenta: Machine Learning = Hacking + Math & Statistics Diagrama de Venn da Data Science. Creditado a Drew Conway, Creative Commons, licenciado como Attribution-NonCommercial. Ele também descreve a  Zona de Perigo  como  Skill Skills  +  Expertise . Aqui, ele está se referindo àquelas pessoas que sabem o suficiente para serem perigosas. Eles podem acessar e estruturar dados, eles conhecem o domínio e podem executar um método e apresentar resultados, mas não entendem o que os resultados significam. Eu acho que é isso que Marsland pode estar insinuando.   Definição de desenvolvedores de aprendizado de máquina

O que é Machine Learning? Read More »

o que é data science

O que é data science? 10 razões pelas quais você deve aprender

Sabe o que é data science? Veja 10 motivos pelos quais você deve aprender! Dizemos que estamos vivendo na era da informação. A internet tornou fácil para qualquer um reunir qualquer informação que eles precisem para alcançar qualquer finalidade que desejarem. Você sabia que você poderia até aprender a construir seu próprio carro online? Você sabia que poderia aprender a administrar sua própria empresa? Sim, o que estava disponível apenas para aqueles que podiam pagar pela educação de uma universidade de renome, agora está disponível para qualquer pessoa que tenha uma conexão com a Internet. A questão é: Como você usará esses dados em seu benefício? Por que o big data é a nova fronteira?  Se você quiser ter sucesso neste mundo, você deve estudar tendências. Ao analisar os dados analíticos disponíveis para o seu nicho, você pode determinar maneiras diferentes pelas quais você pode dar bons passos para alcançar resultados positivos. Tudo depende de dados; de grandes multinacionais para pequenas empresas. Todas as grandes mentes usam esses dados para formular estratégias melhores para o futuro de suas empresas. Agora imagine estar no centro de todo esse frenesi. Imagine ser a pessoa a quem recorrem antes de tomar qualquer decisão comercial importante? Isso é exatamente quem você será quando aprender ciência de dados e análise de big data . Motivo pelo qual você deve aprender a análise de dados   1. A análise de dados é agora uma prioridade para as principais organizações Com o endurecimento da concorrência no mercado, as principais organizações estão recorrendo à análise de dados para identificar novas oportunidades de mercado para seus serviços e produtos. Do jeito que as coisas estão hoje, 77% das principais organizações consideram a análise de dados um componente crítico do desempenho dos negócios. O que isso significa é que os profissionais de big data têm uma enorme influência nas políticas e estratégias de marketing da empresa. 2. Aumentar as oportunidades de emprego À medida que as empresas começam a perceber que não têm capacidade de coletar, interpretar e usar dados de forma abrangente, estão começando a procurar especialistas que possam fazê-lo. Se você observar todas as principais plataformas de oportunidades de emprego, como o Indeed e o Dice, verá que há um número cada vez maior de postagens de procura de analistas de dados e consultores. A demanda por profissionais com esse conjunto específico de habilidades está aumentando, enquanto a oferta permanece baixa. Isso cria ótimas oportunidades de emprego para os indivíduos nesse campo.   3. Aumentando o pagamento para profissionais de análise de dados À medida que a demanda aumenta constantemente e a oferta permanece baixa, os profissionais de análise de dados estão sendo pagos cada vez mais. Na Índia, como está hoje, os profissionais de análise de dados são pagos em média 50% mais do que seus colegas em outras profissões baseadas em TI. Essa tendência é evidente em todo o mundo à medida que mais e mais empresas percebem o quão importante esses profissionais são para a organização.   4. A análise de big data está em toda a parte Assim como se tornou imperativo usar computadores no local de trabalho de hoje, os profissionais de análise de dados de uso para promover o crescimento estão lentamente se recuperando. Não há praticamente nenhum setor que permaneça intocado do alcance do Data Analytics. 5. Você terá vários cargos para escolher Um profissional de análise de dados tem uma ampla variedade de cargos e campos para escolher. Como big data é usado em quase todos os lugares hoje, você pode optar por ser: – Especialista em métricas e análises – Analista de dados – Engenheiro de Big Data – Consultor de análise de dados Estes são apenas alguns dos títulos que você pode ter em grandes organizações como IBM, ITrend, Opera, Oracle, etc e as possibilidades são imensas. 6. Você estará no centro da tomada de decisões na empresa Uma das principais causas de insatisfação no local de trabalho é que a maioria dos funcionários se sente como se não tivesse qualquer poder de decisão. Eles muitas vezes se sentem apenas mais uma engrenagem na grande roda corporativa. Como profissional de análise de dados, você estará no centro da tomada de decisões em sua empresa escolhida. Na verdade, você será parte integrante das decisões de negócios e estratégias futuras, dando a você um papel e um propósito importante dentro da organização.   7. A taxa de adoção da análise de big data é alta Assim como as empresas começaram a usar as mídias sociais para publicidade de marca e engajamento de clientes, elas também começaram a recorrer à análise de dados. Hoje, é quase impossível encontrar qualquer marca que não tenha presença na mídia social. O mesmo será verdade no que diz respeito à adaptação de dados analíticos. Em um futuro muito próximo, todas as empresas precisarão de profissionais de análise de dados. Isso faz com que seja um movimento de carreira inteligente que realmente tenha um futuro nos negócios.   8. Análise de dados está assumindo mais rápido do que o esperado Uma pesquisa conduzida pela Nimbus Ninety mostra que a análise de dados está assumindo muito mais rápido do que o projetado. A pesquisa descobriu que a análise de dados está no topo da lista de tecnologias a serem observadas nos próximos 3 anos.   9. Representa oportunidades perfeitas de freelancing No futuro próximo, a grande maioria da força de trabalho não vai querer estar ligada a apenas um empregador. As pessoas estão constantemente procurando maneiras de diversificar suas fontes de renda e métodos através dos quais podem encontrar o equilíbrio perfeito entre vida profissional e pessoal. A análise de dados, sendo uma questão de estudo de números, tendências e dados em geral, oferece a oportunidade perfeita para se tornar um freelancer ou consultor bem remunerado para algumas das maiores empresas do mundo. Basicamente baseado em TI, esse tipo de trabalho pode ser feito em qualquer lugar do mundo a qualquer momento. Portanto, você não precisa estar amarrado a uma mesa.   10. Desenvolver novos fluxos de receita Com sua capacidade de analisar e colocar em dia boas informações de dados, você pode identificar facilmente novos e inexplorados fluxos de

O que é data science? 10 razões pelas quais você deve aprender Read More »