Blog

o que é big data

O que é Big Data?

A maneira convencional pela qual podemos definir o que é Big Data são conjuntos de dados extremamente grandes, tão complexos e desorganizados que desafiam os métodos comuns e fáceis de gerenciamento de dados que foram projetados e utilizados, até o aumento extremo dos dados. Conjunto de Big datas não podem ser processados ​​em sistemas tradicionais de gerenciamento de banco de dados e ferramentas. Eles não se encaixam em uma rede de banco de dados regular. Mas como o Big Data é criado? Nós temos algum papel nisso? Para encontrar as respostas  desta questão, vamos passar para o próximo tópico. Como estamos contribuindo na criação de big data ? Toda vez que alguém abre um aplicativo em seus telefones, visita uma página da Web, se inscreve on-line em uma plataforma ou até digita em um mecanismo de pesquisa, um dado é coletado. Então, sempre que nos voltamos para nossos mecanismos de busca, respostas são criadas e coletadas. Mas, como usuários, geralmente estamos mais focados no resultado do que estamos realizando na web. Nós não nos detemos sobre o que está acontecendo nos bastidores, por exemplo, você deve ter aberto seu navegador e procurado por ” big data “, em seguida, visitou este link para ler este blog. Isso por si só contribuiu para a grande quantidade de dados grandes. Agora imagine o número de pessoas passando o tempo na internet visitando páginas da web diferentes, carregando fotos e outras coisas. Tudo isso contribui para o estoque de dados. Características de o que é big data: Existem alguns termos associados ao Big Data que realmente ajudam a tornar as coisas ainda mais claras sobre big data. Estas são essencialmente chamadas de características de big data e são denominadas como volume, velocidade e variedade, dando origem ao nome popular 3V de big data, que eu tenho certeza que você deve ter ouvido antes, mas se você não tiver, não precisa se preocupar, porque vamos discuti-los em detalhes aqui. Como as pessoas estão entendendo cada vez mais sobre o termo tecnológico em constante evolução, big data, não deveria ser um choque se mais características fossem adicionadas à lista dos 3Vs. Estes são chamados de veracidade e valor . Vamos verificar cada um deles individualmente Características de big data Volume As organizações precisam dimensionar constantemente suas soluções de armazenamento, pois grandes volumes de dados claramente exigem grande quantidade de espaço a ser armazenado. Velocidade Como big data está sendo gerado a cada segundo, as organizações precisam responder em tempo real para lidar com big data. Variedade Big data vem em várias formas. Pode ser estruturado ou não estruturado ou mesmo em formatos diferentes, como formato de texto, vídeos, imagens e muito mais. Veracidade Big data, tão grande como é, pode conter dados errados também. A incerteza dos dados é algo que as organizações precisam considerar ao lidar com big data. Valor Apenas coletar os dados grandes e armazená-los não tem nenhuma conseqüência a menos que os dados sejam analisados ​​e uma saída útil seja produzida. Desafios do Big Data: Deve estar bastante claro agora que, ao falar sobre big data, não se pode ignorar o fato de que há alguns desafios óbvios associados a ele. Então, seguindo em frente no blog, vamos abordar alguns desses desafios. Crescimento rápido de dados: Dados crescendo a um ritmo tão rápido estão tornando um desafio encontrar os insights. Há mais e mais dados a cada segundo, a partir dos quais os dados realmente relevantes e úteis precisam ser selecionados. Armazenamento: Uma quantidade tão grande de dados é difícil de armazenar e gerenciar por organizações sem ferramentas e tecnologias apropriadas. Sincronização entre fontes de dados: Isso implica que, quando as organizações importam dados de origens diferentes, os dados de uma origem podem não estar atualizados em comparação aos dados da outra origem. Segurança: A enorme quantidade de dados nas organizações pode facilmente se tornar um alvo para ameaças persistentes avançadas, por isso aqui estabelece outro desafio para as organizações manterem seus dados seguros por autenticação adequada, criptografia de dados, etc. Dados não confiáveis: Não podemos negar o fato de que dados grandes não podem ser 100% precisos. Pode conter dados redundantes, dados incompletos e contradições. Desafios Diversos: Estes são alguns outros desafios que surgem ao lidar com big data como uma integração de dados, habilidade  e disponibilidade de talentos, expenses de solução e processamento de uma grande quantidade de dados no tempo e com precisão para que os dados estejam disponíveis para os consumidores de dados sempre que precisarem isto. Tecnologias e ferramentas para ajudar a gerenciar big data: Antes de começarmos a conhecer tecnologias que podem ajudar a gerenciar Big Data, primeiro devemos nos familiarizar com um paradigma de programação muito popular chamado MapReduce . O que ele faz é permitir a realização de cálculos em enormes conjuntos de dados em múltiplos sistemas, de forma paralela. O MapReduce  consiste principalmente em duas partes. O Mapa e o Reduzir . É óbvio, não é? De qualquer forma, vamos ver o que essas duas partes são usadas para: O mapa: classifica e filtra e categoriza os dados para facilitar a análise. O Reduzir: Ele mescla todos os dados e fornece o resumo.   Estruturas de big data O Apache Hadoop é uma estrutura que permite o processamento paralelo de dados e o armazenamento de dados distribuídos. O Apache Spark é uma estrutura de processamento de dados distribuídos de propósito geral. Apache Kafka é uma plataforma de processamento de fluxo O Apache Cassandra é um sistema de gerenciamento de banco de dados NoSQL distribuído. Estas são algumas das muitas tecnologias usadas para manipular e gerenciar grandes volumes de dados. Aplicações de big data: Big data tem muitas aplicações em vários setores. Vamos passar por cima de algumas das aplicações em breve. Detecção de fraude O Big Data ajuda na análise de risco , gerenciamento , detecção de fraude , análise de negociação anormal . Publicidade e Marketing O Big Data ajuda as agências de publicidade a entender os padrões de comportamento do usuário e, em seguida, a obter informações sobre as motivações dos consumidores. Agricultura Big data pode ser usado para sensor de dados para aumentar a eficiência da cultura. Isso pode ser feito com o plantio de culturas de teste para registrar e armazenar os dados sobre como as culturas reagem a várias mudanças ambientais e, em seguida, usar esses dados para planejar a plantação de acordo com

O que é Big Data? Read More »

modelagem

Tutorial de Modelagem de Dados para Iniciantes

O que é modelagem de dados? Modelagem de dados é um processo de formulação de dados em um sistema de informação em uma estrutura particular, para que possa ajudar no relato fácil no futuro. Ele ajuda na análise de dados que ajudarão ainda mais a atender aos requisitos de negócios. O processo de modelagem de dados requer modeladores de dados que trabalham meticulosamente com as partes interessadas e os possíveis usuários de um sistema de informações. O processo de modelagem de dados termina com a criação de um modelo de dados que suporta a infra-estrutura do sistema de informações comerciais. A modelagem de dados é um conjunto de atividades e técnicas envolvidas na compreensão da estrutura de uma organização e também propõe soluções que permitam à organização atingir seus objetivos. Ela preenche as lacunas entre as áreas técnicas e funcionais.   Importância da modelagem de dados O modelo de dados retrata um melhor entendimento dos requisitos de negócios. Ajuda na criação de um design robusto e fácil de retrabalhar. Um modelo de dados qualificado ajuda a fornecer melhor consistência em todos os projetos de uma empresa. Melhora a qualidade dos dados. Menos movimentos / distribuição de dados. Menos movimento implica menos manutenção. A reutilização do modelo de dados salva todos os esforços feitos para projetar um modelo existente. Melhora o desempenho para um núcleo. Ajuda os gerentes de projeto com melhor escopo e gerenciamento de qualidade. Três perspectivas do modelo de dados Modelo Conceitual: – Orientado ao Negócio (Entradas, Atributos e Relação) Modelo Lógico: – Elabora o ideal de todos os tipos de dados que estamos prestes a capturar. (Tabelas, colunas, etc.) Modelo Físico: -Como implementar um modelo de dados? (Tabelas, operações CRUD, índices, particionamento) Tipo de modelagem de dados Modelo plano Modelo Hierárquico Modelo de rede Modelo Dimensional Modelo Relacional Modelo Relacional de Objeto Esquema em Estrela Para aprender Modelagem de Dados, é preciso realmente entender Fatos e Dimensões . Tabela de fatos: – É uma tabela contendo medições e granularidade de cada medição é definida por dimensão relacionada. Os fatos podem ser aditivos ou semi-aditivos. Por exemplo, vendas. Dimensão: – Uma tabela que coleta campos contendo descrição para elementos de negócios e é referida por várias tabelas de fatos. Modelagem Dimensional Modelagem dimensional é uma técnica de design de data warehouse. Ele usa dimensões e fatos confirmados e ajuda na fácil navegação. O design de modelagem dimensional ajuda na consulta de desempenho rápido. Modelos dimensionais são casualmente conhecidos como esquemas em estrela. Chaves relacionadas à modelagem dimensional  As chaves são importantes para entender enquanto aprendemos Modelagem de dados . As chaves da modelagem dimensional são divididas em cinco categorias. Business ou Natural Keys: – é o campo que identifica exclusivamente uma entidade. Por exemplo, ID do cliente, número do empregado. Chaves Primárias ou Alternativas: -Qualquer campo contendo um registro único pode ser chamado como chave primária. O usuário precisa selecionar uma das chaves primárias disponíveis, o restante se torna chaves alternativas. Chaves Compostas ou Compostas: -Uso de mais de um campo para representar uma chave. Chaves substitutas: – Campo sem significado comercial e geralmente são geradas automaticamente. Chaves Estrangeiras: – Campo é uma chave que aponta para chave em alguma outra tabela. O processo de modelagem de dados  envolve projetar e produzir todos os tipos de modelos de dados, conforme descrito anteriormente. Esses modelos de dados são então convertidos por meio da linguagem de definição de dados. A linguagem de definição de dados é usada para gerar um banco de dados. Este banco de dados será então denominado como um modelo de dados totalmente atribuído.

Tutorial de Modelagem de Dados para Iniciantes Read More »

o que é data mining

O que é data mining? Como analistas descobrem insights

Data Mining é o processo automatizado de classificação de grandes conjuntos de dados para identificar tendências e padrões e estabelecer relações   As organizações hoje estão reunindo volumes cada vez maiores de informações de todos os tipos de fontes, incluindo sites, aplicativos corporativos, mídias sociais, dispositivos móveis e, cada vez mais, a Internet das coisas (IoT). A grande questão é: como você pode derivar o valor comercial real dessas informações? É aí que a mineração de dados pode contribuir de maneira significativa. Mas o que é data mining? A mineração de dados é o processo automatizado de classificação de grandes conjuntos de dados para identificar tendências e padrões e estabelecer relacionamentos, para resolver problemas de negócios ou gerar novas oportunidades por meio da análise dos dados Não é apenas uma questão de analisar os dados para ver o que aconteceu no passado para poder agir de forma inteligente no presente. As ferramentas e técnicas de mineração de dados permitem prever o que vai acontecer no futuro e agir de acordo para aproveitar as tendências futuras. O termo “mineração de dados” é usado de forma bastante ampla no setor de TI. Geralmente, aplica-se a uma variedade de atividades de processamento de dados em grande escala, como coleta, extração, armazenamento e análise de dados. Ele também pode abranger aplicativos e tecnologias de apoio à decisão, como inteligência artificial , aprendizado de máquina e business intelligence. Onde podemos aplicar Data Mining? A mineração de dados é usada em muitas áreas de negócios e pesquisa, incluindo desenvolvimento de produtos, vendas e marketing, genética e cibernética – para citar alguns. Se for usado da maneira correta, a mineração de dados combinada com a análise preditiva pode dar uma grande vantagem sobre os concorrentes que não estão usando essas ferramentas. Derivando o valor comercial da mineração de dados O valor real da mineração de dados vem da descoberta de gemas ocultas na forma de padrões e relacionamentos nos dados, que podem ser usados ​​para fazer previsões que podem ter um impacto significativo nos negócios. Por exemplo, se uma empresa determina que uma determinada campanha de marketing resultou em vendas extremamente altas de um modelo específico de um produto em certas partes do país, mas não em outras, ele pode reorientar a campanha no futuro para obter o máximo retorno. Os benefícios da tecnologia podem variar dependendo do tipo de negócio e seus objetivos. Por exemplo, os gerentes de vendas e marketing no varejo podem coletar informações de clientes de maneiras diferentes para melhorar as taxas de conversão do que as da indústria de serviços financeiros ou de companhias aéreas. Independentemente do setor, a mineração de dados aplicada aos padrões de vendas e ao comportamento do cliente no passado pode ser usada para criar modelos que prevejam vendas e comportamento futuros. Há também o potencial de mineração de dados para ajudar a eliminar atividades que podem prejudicar as empresas. Por exemplo, você pode usar a mineração de dados para aprimorar a segurança do produto ou detectar atividades fraudulentas em transações de serviços financeiros e de seguros. As aplicações da mineração de dados A mineração de dados pode ser aplicada a uma variedade de aplicativos em praticamente todos os setores. Os varejistas podem implementar a mineração de dados para identificar melhor quais produtos as pessoas provavelmente comprarão com base em seus hábitos de compra anteriores ou quais produtos provavelmente venderão em determinadas épocas do ano. Isso pode ajudar os comerciantes a planejar inventários e armazenar layouts. Os bancos e outros provedores de serviços financeiros podem extrair dados relacionados às contas, transações e preferências de canal de seus clientes para melhor atender às suas necessidades. Eles também podem coletar dados analisados ​​a partir de seus sites e interações de mídia social para ajudar a aumentar a fidelidade dos clientes existentes e atrair novos. As empresas de manufatura podem usar a mineração de dados para procurar padrões no processo de produção, para que possam identificar precisamente os gargalos e os métodos defeituosos e encontrar maneiras de aumentar a eficiência. Eles também podem aplicar o conhecimento da mineração de dados ao design de produtos e fazer ajustes com base no feedback das experiências do cliente. As instituições de ensino podem se beneficiar da mineração de dados, como a análise de conjuntos de dados para prever os futuros comportamentos de aprendizagem e o desempenho dos alunos, e depois usar esse conhecimento para melhorar os métodos de ensino ou os currículos. Os prestadores de cuidados de saúde podem extrair e analisar dados para determinar as melhores formas de prestar cuidados aos pacientes e reduzir custos. Com a ajuda da mineração de dados, eles podem prever quantos pacientes precisarão cuidar e que tipo de serviços esses pacientes precisarão. Nas ciências da vida, a mineração pode ser usada para coletar insights de dados biológicos massivos, para ajudar a desenvolver novos medicamentos e outros tratamentos. Em vários setores , incluindo assistência médica e varejo, você pode usar a mineração de dados para detectar fraudes e outros abusos – muito mais rapidamente do que com os métodos tradicionais para identificar essas atividades. Os principais componentes da mineração de dados O processo de mineração de dados inclui vários componentes distintos que atendem a diferentes necessidades: Pré-processando. Antes de poder aplicar algoritmos de mineração de dados, você precisa criar um conjunto de dados de destino. Uma fonte comum de dados é um data mart ou warehouse. Você precisa executar o pré-processamento para poder analisar os conjuntos de dados. Limpeza e preparação de dados. O conjunto de dados de destino deve ser limpo e preparado para remover “ruído”, endereçar valores ausentes, filtrar pontos de dados (para detecção de anomalias) para remover erros ou explorar mais, criar regras de segmentação e executar outras funções relacionadas à preparação de dados. . Aprendizagem de regras de associação (também conhecida como análise de cesta de mercado ). Essas ferramentas buscam relacionamentos entre variáveis ​​em um conjunto de dados, como determinar quais produtos em uma loja são frequentemente comprados juntos. Clustering Esse recurso de mineração de dados é usado para descobrir grupos e estruturas em conjuntos de dados que são, de alguma forma, semelhantes entre si, sem usar estruturas conhecidas nos dados. Classificação. As ferramentas que executam a classificação

O que é data mining? Como analistas descobrem insights Read More »

outlier

Como identificar Outlier nos seus dados?

Como identificar um outlier? Você sabe? Primeiro vamos entender o significado de outlier na estatística e logo após como fazer a identificação e detecção: Definição Um outlier é uma observação que se encontra a uma distância anormal de outros valores em uma amostra aleatória de uma população. Outliers Muitos algoritmos de aprendizado de máquina são sensíveis ao intervalo e à distribuição de valores de atributos nos dados de entrada. Os valores discrepantes nos dados de entrada podem distorcer e enganar o processo de treinamento dos algoritmos de aprendizado de máquina, resultando em tempos de treinamento mais longos, modelos menos precisos e, em última análise, resultados mais pobres. Mesmo antes de os modelos preditivos serem preparados nos dados de treinamento, os outliers podem resultar em representações enganosas e, por sua vez, em interpretações enganosas dos dados coletados. Outliers podem distorcer a distribuição sumária de valores de atributos em estatísticas descritivas como média e desvio padrão e em gráficos como histogramas e gráficos de dispersão, comprimindo o corpo dos dados. Por fim, os outliers podem representar exemplos de instâncias de dados relevantes para o problema, como anomalias no caso de detecção de fraudes e segurança de computadores. Modelagem Outlier Outliers são valores extremos que ficam muito além das outras observações. Por exemplo, em uma distribuição normal, os outliers podem ser valores nas caudas da distribuição. O processo de identificação de outliers tem muitos nomes em mineração de dados e aprendizado de máquina, como mineração outliers, modelagem outlier e detecção de novidade e detecção de anomalias. Em seu livro  Outlier Analysis, Aggarwal fornece uma taxonomia útil de métodos de detecção de outliers, como segue: Análise de valor extremo : Determine as caudas estatísticas da distribuição subjacente dos dados. Por exemplo, métodos estatísticos, como os escores z, em dados univariados. Modelos probabilísticos e estatísticos : Determine instâncias improváveis ​​de um modelo probabilístico dos dados. Por exemplo, modelos de mistura gaussiana otimizados usando a maximização de expectativa. Modelos Lineares : Métodos de projeção que modelam os dados em dimensões inferiores usando correlações lineares. Por exemplo, análise de componentes principais e dados com grandes erros residuais podem ser outliers. Modelos baseados em proximidade : instâncias de dados que são isolados da massa dos dados, conforme determinado pela análise de cluster, densidade ou vizinho mais próximo. Modelos teóricos de informações : os outliers são detectados como instâncias de dados que aumentam a complexidade (tamanho mínimo do código) do conjunto de dados. Detecção de valores discrepantes de alta dimensão : os métodos que pesquisam subespaços para valores discrepantes fornecem a divisão de medidas baseadas em distância em dimensões mais altas (maldição de dimensionalidade). Aggarwal comenta que a interpretabilidade de um modelo outlier é criticamente importante. Contexto ou lógica é necessário em torno das decisões por que uma instância de dados específica é ou não é um outlier. Em seu capítulo contribuinte para o  Data Mining e o Knowledge Discovery Handbook, Irad Ben-Gal propõe uma taxonomia de modelos outliers como univariados ou multivariados e paramétricos e não-paramétricos. Essa é uma maneira útil de estruturar métodos com base no que é conhecido sobre os dados. Por exemplo: Você é considerado com outliers em um ou mais de um atributo (métodos univariados ou multivariados)? Você pode assumir uma distribuição estatística a partir da qual as observações foram amostradas ou não (paramétricas ou não-paramétricas)? Inicio Existem muitos métodos e muitas pesquisas colocadas na detecção de outliers. Comece fazendo algumas suposições e experimentos de design onde você pode observar claramente os efeitos dessas suposições em relação a alguma medida de desempenho ou precisão. Eu recomendo trabalhar através de um processo escalonado de análise de valor extremo, métodos de proximidade e métodos de projeção. Análise Extrema de Valor Você não precisa conhecer métodos estatísticos avançados para procurar, analisar e filtrar outliers de seus dados. Comece de maneira simples com uma análise de valor extremo. Concentre-se em métodos univariados Visualize os dados usando gráficos de dispersão, histogramas e gráficos de caixa e bigodes e procure valores extremos Assumir uma distribuição (gaussiana) e procurar valores maiores que 2 ou 3 desvios padrão da média ou 1,5 vezes do primeiro ou terceiro quartil Filtrar outliers candidatos do conjunto de dados de treinamento e avaliar o desempenho de seus modelos Métodos de proximidade Depois de explorar métodos mais simples de valores extremos, considere migrar para métodos baseados em proximidade. Use métodos de agrupamento para identificar os clusters naturais nos dados (como o algoritmo k-means) Identifique e marque os centróides de cluster Identificar instâncias de dados que são uma distância fixa ou uma distância percentual dos centróides de cluster Filtrar outliers candidatos do conjunto de dados de treinamento e avaliar o desempenho de seus modelos Métodos de Projeção Os métodos de projeção são relativamente simples de aplicar e destacam rapidamente os valores externos. Use métodos de projeção para resumir seus dados em duas dimensões (como mapeamento de PCA, SOM ou Sammon) Visualize o mapeamento e identifique os outliers manualmente Use medidas de proximidade de valores projetados ou vetores codebook para identificar outliers Filtrar outliers candidatos do conjunto de dados de treinamento e avaliar o desempenho de seus modelos Métodos robustos para outliers Uma estratégia alternativa é mudar para modelos robustos a outliers. Existem formas robustas de regressão que minimizam os erros medianos de mínimos quadrados em vez da média (chamada de regressão robusta), mas são mais computacionalmente intensivos. Existem também métodos como árvores de decisão que são robustos para outliers. Você pode verificar alguns métodos que são robustos para outliers. Se houver benefícios significativos de precisão do modelo, pode haver uma oportunidade de modelar e filtrar outliers de seus dados de treinamento. Recursos Há muitas páginas que discutem a detecção de exceções, mas recomendo ler um bom livro sobre o assunto, algo mais autoritário. Mesmo olhando através de livros introdutórios sobre aprendizado de máquina e mineração de dados não será tão útil para você. Para um tratamento clássico de outliers por estatísticos, confira: Regressão Robusta e Detecção de Outlier  por Rousseeuw e Leroy publicados em 2003 Outliers in Statistical Data  por Barnett e Lewis, publicado em 1994 Identificação de Outliers  uma monografia de Hawkins publicada em 1980 Para um tratamento moderno de outliers pela comunidade de mineração de

Como identificar Outlier nos seus dados? Read More »

o que é machine learning

O que é Machine Learning?

Se você falar sobre Machine Learning com um amigo ou colega um dia, você corre o risco de alguém realmente perguntar: “ O que ‘diabos’ é aprendizado de máquina?“   Seguimento do post O objetivo deste post é dar-lhe algumas definições mais abrangentes para você pensar sobre e também uma definição acessível de uma linha que é fácil de lembrar. Começaremos vendo as definições padrão de Aprendizado de Máquina retiradas de livros-texto autorizados no campo. Em seguida vamos desenvolvendo uma definição de desenvolvedores de aprendizado de máquina e por fim uma definição de uma linha que podemos usar sempre que nos perguntarem: “O que é machine learning?”   Definições padrão de o que é machine learning Vamos começar examinando quatro livros didáticos sobre Machine Learning que são comumente usados ​​em cursos de nível universitário. Estas são nossas definições autorizadas e estabelecem nossa base para um pensamento mais profundo sobre o assunto. Eu escolhi estas quatro definições para destacar algumas perspectivas úteis e variadas no campo. Através da experiência, aprenderemos que o campo é realmente uma confusão de métodos e escolher uma perspectiva é a chave para progredir.   Significado de machine learning por Mitchell  Tom Mitchell em seu livro Machine Learning fornece uma definição na linha de abertura do prefácio: O campo do aprendizado de máquina está preocupado com a questão de como construir programas de computador que melhoram automaticamente com a experiência.   Eu gosto desta definição curta e doce e é a base para a definição dos desenvolvedores que criamos no final do post. Observe a menção de “ programas de computador ” e a referência a “ melhoria automatizada ”. Escreva programas que melhorem a si mesmos , é provocativo! Em sua introdução, ele fornece um pequeno formalismo que você verá muito repetido: Um programa de computador é dito para aprender com a experiência E com relação a alguma classe de tarefas T e medida de desempenho P , se o seu desempenho em tarefas em T , medida pelo P , melhora com a experiência E . Não deixe a definição de termos te assustar, este é um formalismo muito útil. Podemos usar esse formalismo como modelo e colocar E , T e P no topo das colunas em uma tabela e listar problemas complexos com menos ambigüidade. Ele poderia ser usado como uma ferramenta de design para nos ajudar a pensar claramente sobre quais dados coletar ( E ), quais decisões o software precisa tomar ( T ) e como avaliaremos seus resultados ( P ). Este poder é porque é frequentemente repetido como uma definição padrão. Guarde-o no bolso de trás.   Elementos de Aprendizagem Estatística Os elementos do aprendizado estatístico: mineração de dados, inferência e previsão  foram escritos por três estatísticos de Stanford e auto-descritos como uma estrutura estatística para organizar seu campo de investigação. No prefácio está escrito: Vastas quantidades de dados estão sendo geradas em muitos campos, e o trabalho dos estatísticos é dar sentido a tudo: extrair padrões e tendências importantes e entender “o que os dados dizem”. Nós chamamos esse aprendizado de dados. Eu entendo que o trabalho de um estatístico é usar as ferramentas de estatísticas para interpretar dados no contexto do domínio. Os autores parecem incluir todo o campo de Machine Learning como auxiliares nessa busca. Curiosamente, eles optaram por incluir ” Data Mining ” no subtítulo do livro. Os estatísticos aprendem com os dados, mas o software também, e aprendemos com as coisas que o software aprende. Das decisões tomadas e dos resultados alcançados pelos vários métodos de aprendizado de máquina.   Reconhecimento de padrões Bishop no prefácio de seu livro  Pattern Recognition e Machine Learning comenta: O reconhecimento de padrões tem suas origens na engenharia, enquanto o aprendizado de máquina cresceu a partir da ciência da computação. No entanto, essas atividades podem ser vistas como duas facetas do mesmo campo … Lendo isto, você tem a impressão de que Bishop veio a campo de uma perspectiva de engenharia e depois aprendeu e aproveitou a Ciência da Computação, assumindo os mesmos métodos. O reconhecimento de padrões é um termo de engenharia ou processamento de sinais. Esta é uma abordagem madura e deve ser replicada. De maneira mais ampla, independentemente do campo que reivindica um método, se ele atende às nossas necessidades aproximando-nos de um insight ou de um resultado “aprendendo com os dados”, podemos decidir chamar isso de aprendizado de máquina.   Uma perspectiva algorítmica de machine learning   Marsland fornece adotar a definição de Mitchell de Machine Learning em seu livro Machine Learning: An Algorithmic Perspective. Ele fornece uma nota convincente em seu prólogo que motiva sua escrita do livro: Uma das características mais interessantes do aprendizado de máquina é que ele está no limite de várias disciplinas acadêmicas, principalmente ciência da computação, estatística, matemática e engenharia. … O aprendizado de máquina é usualmente estudado como parte da inteligência artificial, o que o coloca firmemente na ciência da computação… entender por que esses algoritmos funcionam requer uma certa quantidade de sofisticação estatística e matemática que muitas vezes falta aos graduandos da ciência da computação. Isso é perspicaz e instrutivo. Em primeiro lugar, ele ressalta a natureza multidisciplinar do campo. Nós estávamos tendo um sentimento para isso a partir da definição acima, mas ele desenha um grande sublinhado vermelho para nós. A Aprendizagem de Máquina baseia-se em todos os tipos de ciências da informação. Em segundo lugar, ele ressalta o perigo de se agarrar a uma determinada perspectiva com muita força. Especificamente, o caso de um algoritmo que foge do funcionamento matemático interno de um método. Sem dúvida, o caso contrário do estatístico que foge das preocupações práticas de implementação e implantação é igualmente limitante.   Diagrama de Venn Drew Conway criou um bom Diagrama de Venn  em setembro de 2010 que pode ajudar. Em sua explicação, ele comenta: Machine Learning = Hacking + Math & Statistics Diagrama de Venn da Data Science. Creditado a Drew Conway, Creative Commons, licenciado como Attribution-NonCommercial. Ele também descreve a  Zona de Perigo  como  Skill Skills  +  Expertise . Aqui, ele está se referindo àquelas pessoas que sabem o suficiente para serem perigosas. Eles podem acessar e estruturar dados, eles conhecem o domínio e podem executar um método e apresentar resultados, mas não entendem o que os resultados significam. Eu acho que é isso que Marsland pode estar insinuando.   Definição de desenvolvedores de aprendizado de máquina

O que é Machine Learning? Read More »