Blog

kaggle

O que é o Kaggle? O guia completo!

O Kaggle é um excelente recurso para pessoas que são iniciantes em ciência de dados e aprendizado de máquina, se você é uma delas, então você está definitivamente no lugar certo 🙂 0. Introdução Antes de ir para o Kaggle , gostaria de enfatizar que é uma boa ideia ter uma base sólida primeiro. Se você gostaria de saber mais, aconselho dar alguma lida sobre conceitos básicos de ciencia de dados, aconselho também a dar uma lida nos nossos posts e nossos cursos aqui no site. 1. Conjuntos de Dados Para começar, sugiro que você comece observando os conjuntos de dados, Datasets | O chato aqui é que não há realmente nenhuma maneira de coletar (da própria página) quais conjuntos de dados são bons para começar. Eu recomendaria usar o recurso de “pesquisa” para procurar alguns dos conjuntos de dados padrão, como os conjuntos de dados Iris Species , Pima Indians Diabetes , Adult Census Income, autompg e Breast Cancer Wisconsin . Antes de prosseguir, leia as descrições do conjunto de dados para entender o que exatamente as variáveis ​​indicam e o que os dados significam.   2. Kernels Não é só para ver banco de dados que você veio ao kaggle, certo? Então confira a guia “Kernels” e clique em uma das entradas que você vê na tela seguinte: Os kernels são “editores de scripts on-line que permitem executar código sem instalar o R ​​ou o Python (e os dados já estão conectados)”. – Em outras palavras, você pode continuar trabalhando no seu navegador e explorar, modelar, visualizar,… seus dados sem ter que instalar nada. Quando você clica na primeira entrada, por exemplo, você verá algo como isto: Eu diria, inspecione qualquer kernel que você tenha selecionado, e tente obter a idéia geral por trás dos kernels que acabei de descrever – A maneira mais fácil de fazer isso é bifurcando o kernel que você selecionou pressionando o botão azul “Fork Notebook” . Você será solicitado a efetuar login (se ainda não estiver logado) e será levado ao editor: Você pode começar a fazer ajustes: alterar o código, alterar o texto, adicionar imagens,… Depois de ter bifurcado e ajustado o notebook, você pode começar a fazer seus próprios cadernos e scripts do zero, pressionando o botão azul “Novo Kernel” (você pode ver a diferença entre essas duas opções na imagem abaixo): Se você gostaria de ter alguma ajuda para começar a usar os scripts do Kaggle, confira o Exploração de dados com scripts do Kaggle . Um recurso que eu não destaquei antes, é o fato de você poder discutir os cadernos, scripts, conjuntos de dados, dentro das páginas que mostrei as imagens! Esse é um recurso bastante útil quando você está tentando entender o que e por que as pessoas estão fazendo as coisas que fazem em seus cadernos / scripts ou para obter esclarecimentos sobre os dados ou por que os dados parecem da maneira que parecem. Quaisquer comentários que você tenha, você pode resolvê-los imediatamente!   3. Discussão Além da opção de comentar, você também tem uma seção de discussão inteira à sua disposição, completa com um fórum Kaggle, uma seção dedicada aos iniciantes para começar, feedback do produto. Você deve definitivamente ir e dar uma olhada quando tiver a chance! 4. Blog Kaggle também tem um blog com alguns tutoriais, anúncios. Isso também pode ser útil para você verificar, mas eu tenho que mencionar que você também pode encontrar bons tutoriais em outros lugares, como a documentação de bibliotecas Python / R, Machine Aprendizado (Chris Albon), Construa melhor o software, juntos (Github). 5. Competições É uma das primeiras coisas que você vê quando entra no site: as competições. Quando você já trabalhou com os kernels e os conjuntos de dados, é uma boa ideia entrar nas competições. Ao fazer isso, confira os seguintes cursos interativos gratuitos que ajudarão você a começar: Tutorial Kaggle Python sobre Aprendizado de Máquina Sempre quis competir em uma competição de Kaggle, mas não tenho certeza se você tem o conjunto de habilidades certo?Este tutorial interativo por…www.datacamp.com Kaggle R Tutorial sobre Aprendizado de Máquina Sempre quis competir em uma competição de aprendizado de máquina Kaggle, mas não tenho certeza se você tem a qualificação certa?Este…www.datacamp.com Também confira as competições “Getting Started” no próprio Kaggle. 6. Ranking de Usuários Você sempre pode aprender com os melhores. Confira o ranking de usuários para ver o que você precisa fazer para se tornar um mestre de Kaggle ! 7. Empregos Algo que você pode querer verificar enquanto estiver trabalhando no Kaggle é a seção de empregos. Isso é perfeito para aqueles que ainda estão procurando emprego na indústria de ciência de dados! Espero que você tenha gostado!

O que é o Kaggle? O guia completo! Read More »

knn

O Algorítmo k-Nearest Neighbors (kNN) em Machine Learning

Neste post você descobrirá sobre o algoritmo k-Nearest Neighbors (KNN), ou método dos vizinhos mais próximos, para classificação e regressão. Depois de ler este post você saberá: A representação do modelo usada pelo KNN. Como um modelo é aprendido usando KNN (dica, não é). Como fazer previsões usando o KNN Os muitos nomes para o KNN, incluindo como diferentes campos se referem a ele. Como preparar seus dados para aproveitar ao máximo o KNN. Onde procurar para aprender mais sobre o algoritmo KNN. Este post foi escrito para desenvolvedores e não assume nenhum histórico em estatística ou matemática. O foco está em como o algoritmo funciona e como usá-lo para problemas de modelagem preditiva. Se você tiver alguma dúvida, deixe um comentário e eu farei o meu melhor para responder. Vamos começar. Representação do Modelo KNN A representação do modelo para o KNN é o conjunto de dados completo do treinamento. É tão simples quanto isso. O KNN não possui outro modelo além de armazenar o conjunto de dados inteiro, portanto, não é necessário aprender. Implementações eficientes podem armazenar os dados usando estruturas de dados complexas, como árvores kd, para fazer a pesquisa e a correspondência de novos padrões durante a previsão eficiente. Como todo o conjunto de dados de treinamento é armazenado, convém pensar cuidadosamente sobre a consistência de seus dados de treinamento. Pode ser uma boa ideia organizá-lo, atualizá-lo com frequência à medida que novos dados forem disponibilizados e remover dados errôneos e discrepantes. Fazendo previsões com o KNN A KNN faz previsões usando o conjunto de dados de treinamento diretamente. As previsões são feitas para uma nova instância (x) pesquisando todo o conjunto de treinamento para as K instâncias mais semelhantes (os vizinhos) e resumindo a variável de saída para essas instâncias de K. Para a regressão, essa pode ser a variável de saída média; na classificação, esse pode ser o valor de classe do modo (ou mais comum). Para determinar quais das instâncias do K no conjunto de dados de treinamento são mais semelhantes a uma nova entrada, uma medida de distância é usada. Para variáveis ​​de entrada de valor real, a medida de distância mais popular é a distância euclidiana . A distância euclidiana é calculada como a raiz quadrada da soma das diferenças quadráticas entre um novo ponto (x) e um ponto existente (xi) em todos os atributos de entrada j. Distância Euclidiana (x, xi) = sqrt (soma ((xj – xij) ^ 2)) Outras medidas populares de distância incluem: Distância de Hamming: Calcula a distância entre os vetores binários ( mais ). Manhattan Distance: Calcula a distância entre vetores reais usando a soma de sua diferença absoluta. Também chamado de City Block Distance ( mais ). Distância Minkowski: Generalização da distância Euclidiana e Manhattan ( mais ). Existem muitas outras medidas de distância que podem ser usadas, como a distância de Tanimoto, Jaccard , Mahalanobis e cosseno. Você pode escolher a melhor métrica de distância com base nas propriedades de seus dados. Se não tiver certeza, você pode experimentar diferentes métricas de distância e valores diferentes de K juntos e ver qual mistura resulta nos modelos mais precisos. Euclidean é uma boa medida de distância para usar se as variáveis ​​de entrada forem semelhantes em tipo (por exemplo, todas as larguras e alturas medidas). A distância de Manhattan é uma boa medida para usar se as variáveis ​​de entrada não forem semelhantes em tipo (como idade, sexo, altura, etc.). O valor para K pode ser encontrado por ajuste de algoritmo. É uma boa ideia tentar vários valores diferentes para K (por exemplo, valores de 1 a 21) e ver o que funciona melhor para o seu problema. A complexidade computacional do KNN aumenta com o tamanho do conjunto de dados de treinamento. Para conjuntos de treinamento muito grandes, o KNN pode ser estocástico tomando uma amostra do conjunto de dados de treinamento a partir do qual calcular as instâncias mais semelhantes. Diferentes nomes para kNN KNN existe há muito tempo e tem sido muito bem estudado. Como tal, disciplinas diferentes têm nomes diferentes para isso, por exemplo: Aprendizado Baseado em Instância: As instâncias de treinamento brutas são usadas para fazer previsões. Como tal, o KNN é geralmente chamado de aprendizado baseado em instância ou de aprendizado baseado em casos (onde cada instância de treinamento é um caso do domínio do problema). Aprendizado Preguiçoso: Nenhum aprendizado do modelo é necessário e todo o trabalho acontece no momento em que uma previsão é solicitada. Como tal, o KNN é frequentemente referido como um algoritmo de aprendizado lento . Não paramétrica: a KNN não faz suposições sobre a forma funcional do problema a ser resolvido. Como tal, o KNN é referido como um algoritmo de aprendizagem de máquina não paramétrico . O KNN pode ser usado para problemas de regressão e classificação. KNN para regressão Quando o KNN é usado para problemas de regressão, a previsão é baseada na média ou na mediana das instâncias mais semelhantes. KNN para classificação Quando o KNN é usado para classificação, a saída pode ser calculada como a classe com a maior frequência das instâncias mais semelhantes do K. Cada instância, em essência, vota em sua classe e a classe com o maior número de votos é considerada a predição. As probabilidades de classe podem ser calculadas como a frequência normalizada de amostras que pertencem a cada classe no conjunto de K instâncias mais semelhantes para uma nova instância de dados. Por exemplo, em um problema de classificação binária (a classe é 0 ou 1): p (classe = 0) = contagem (classe = 0) / (contagem (classe = 0) + contagem (classe = 1)) Se você está usando K e você tem um número par de classes (por exemplo, 2), é uma boa idéia escolher um valor K com um número ímpar para evitar empate. E o inverso, use um número par para K quando você tiver um número ímpar de classes. Os empates podem ser quebrados consistentemente expandindo K por 1 e observando a classe da próxima instância mais semelhante no conjunto de dados de treinamento. Maldição da Dimensionalidade O KNN funciona bem com um pequeno número de variáveis ​​de entrada (p), mas luta quando o número de entradas é muito grande. Cada variável de entrada

O Algorítmo k-Nearest Neighbors (kNN) em Machine Learning Read More »

Introdução a clusterização e os diferentes métodos

O método de identificação de grupos de dados semelhantes em um conjunto de dados é chamado de cluster. As entidades de cada grupo são comparativamente mais semelhantes às entidades desse grupo do que as dos outros grupos. Neste artigo, estarei conduzindo você pelos tipos de cluster, diferentes algoritmos de clusterização e uma comparação entre dois dos métodos de clusterização mais usados. Vamos começar. Visão Geral de clusterização Clusterização é a tarefa de dividir a população ou os pontos de dados em vários grupos, de modo que os pontos de dados nos mesmos grupos sejam mais semelhantes a outros pontos de dados no mesmo grupo do que os de outros grupos. Em palavras simples, o objetivo é segregar grupos com traços semelhantes e atribuí-los a clusters. Vamos entender isso com um exemplo. Suponha que você seja o chefe de uma loja de aluguel e queira entender as preferências de seus clientes para expandir seus negócios. É possível que você veja os detalhes de cada cliente e crie uma estratégia comercial única para cada um deles? Definitivamente não. Mas o que você pode fazer é agrupar todos os seus clientes em 10 grupos com base em seus hábitos de compra e usar uma estratégia separada para clientes em cada um desses 10 grupos. E isso é o que chamamos de clustering. Agora, entendemos o que é clustering. Vamos dar uma olhada nos tipos de clustering. Tipos de Cluster De um modo geral,  clusterização pode ser dividido em dois subgrupos: Cluster Difícil: No cluster difícil, cada ponto de dados ou pertence a um cluster completamente ou não. Por exemplo, no exemplo acima, cada cliente é colocado em um grupo dos 10 grupos. Cluster flexível: No cluster flexível, em vez de colocar cada ponto de dados em um cluster separado, uma probabilidade ou probabilidade de que o ponto de dados esteja nesses clusters é atribuída. Por exemplo, no cenário acima, a cada cliente é atribuída uma probabilidade de estar em qualquer um dos 10 clusters da loja de varejo. Tipos de algoritmos de clustering Como a tarefa de agrupamento é subjetiva, os meios que podem ser usados ​​para atingir esse objetivo são muitos. Toda metodologia segue um conjunto diferente de regras para definir a ‘ similaridade’ entre os pontos de dados. De fato, existem mais de 100 algoritmos de clusterização conhecidos. Mas poucos dos algoritmos são usados ​​popularmente, vamos olhá-los detalhadamente: Modelos de conectividade: Como o nome sugere, esses modelos baseiam-se na noção de que os dados apontados mais de perto no espaço de dados exibem mais semelhanças entre si do que os pontos de dados mais distantes. Esses modelos podem seguir duas abordagens. Na primeira abordagem, eles começam classificando todos os pontos de dados em clusters separados e, em seguida, agregando-os à medida que a distância diminui. Na segunda abordagem, todos os pontos de dados são classificados como um único cluster e, em seguida, particionados à medida que a distância aumenta. Além disso, a escolha da função de distância é subjetiva. Esses modelos são muito fáceis de interpretar, mas não têm escalabilidade para lidar com grandes conjuntos de dados. Exemplos desses modelos são o algoritmo de clustering hierárquico e suas variantes. Modelos centróides: são algoritmos iterativos de clustering nos quais a noção de similaridade é derivada pela proximidade de um ponto de dados ao centróide dos clusters. O algoritmo de clusterização K-Means é um algoritmo popular que se enquadra nessa categoria. Nestes modelos, o não. de clusters necessários no final tem que ser mencionado de antemão, o que torna importante ter conhecimento prévio do conjunto de dados. Esses modelos são executados iterativamente para encontrar o ótimo local. Modelos de distribuição:  Esses modelos de armazenamento em cluster são baseados na noção de como é provável que todos os pontos de dados no cluster pertençam à mesma distribuição (por exemplo: Normal, Gaussian). Esses modelos geralmente sofrem de overfitting. Um exemplo popular desses modelos é o algoritmo de maximização de expectativas, que usa distribuições normais multivariadas. Modelos de densidade: esses modelos pesquisam o espaço de dados para áreas de densidade variada de pontos de dados no espaço de dados. Ele isola várias regiões de densidade diferentes e atribui os pontos de dados dentro dessas regiões no mesmo cluster. Exemplos populares de modelos de densidade são o DBSCAN e o OPTICS. Agora vou levá-lo através de dois dos algoritmos de cluster mais populares em detalhes – K Means Clustering e Hierarchical Clustering. Vamos começar.   K-Means Clusters K means é um algoritmo iterativo de clustering que visa encontrar o máximo local em cada iteração. Este algoritmo funciona nestes 5 passos: Especifique o número desejado de clusters K: Vamos escolher k = 2 para esses 5 pontos de dados no espaço 2-D.   Atribuir aleatoriamente cada ponto de dados a um cluster: Vamos atribuir três pontos no cluster 1 mostrados usando a cor vermelha e dois pontos no cluster 2 mostrados usando a cor cinza.   Centróides de cluster de cálculo: O centroide dos pontos de dados no cluster vermelho é mostrado usando a cruz vermelha e os do cluster cinza usando a cruz cinza. Atribua novamente cada ponto ao centróide de cluster mais próximo: Observe que apenas o ponto de dados na parte inferior é atribuído ao cluster vermelho, embora esteja mais próximo do centróide do cluster cinza. Assim, atribuímos esse ponto de dados ao cluster cinza Re-compute centróides de cluster: Agora, re-computando os centróides para ambos os clusters.   Repita os passos 4 e 5 até há melhorias são possíveis: Da mesma forma, vamos repetir os 4 th e 5 thpassos até que nós vamos chegar optima global. Quando não haverá mais troca de pontos de dados entre dois clusters por duas repetições sucessivas. Ele marcará a terminação do algoritmo se não for explicitamente mencionado. Clusterização Hierárquica O clustering hierárquico, como o nome sugere, é um algoritmo que constrói a hierarquia de clusters. Esse algoritmo começa com todos os pontos de dados atribuídos a um cluster próprio. Em seguida, dois clusters mais próximos são mesclados no mesmo cluster. No final, esse algoritmo termina quando há apenas um único cluster. Os resultados do agrupamento hierárquico podem ser mostrados usando o dendrograma. O dendrograma pode ser interpretado como: Na parte inferior, começamos com 25 pontos de dados, cada um atribuído a clusters separados. Dois aglomerados mais

Introdução a clusterização e os diferentes métodos Read More »

sazonalidade significado

Sazonalidade: Qual o significado e como usá-la?

Entenda o significado de sazonalidade nesse artigo e porque ela é importante! Quedas de vendas e picos são uma parte quase inevitável de fazer negócios. Mas se você está ignorando quando e por que eles acontecem, você está perdendo oportunidades de mitigar ou alavancar seus efeitos. Há um termo para essas flutuações previsíveis: sazonalidade. A palavra “sazonalidade” é realmente um equívoco: isso implica que esses padrões estão relacionados às estações do ano ou ao clima, quando, na verdade, podem ser o resultado de vários fatores. Por exemplo, uma empresa pública que vê uma queda no valor de suas ações após a divulgação dos relatórios de lucros a cada trimestre está experimentando sazonalidade. E a sazonalidade também pode ocorrer em qualquer intervalo de tempo, seja anual ou diário. Portanto, a sazonalidade é diferente para todos os negócios. A chave para entender os padrões de suas experiências particulares de negócios é usar seus dados para prever quando essas flutuações ocorrerão e, em seguida, criar estratégias de acordo. O que a sazonalidade pode dizer Então, onde você começa? Bem, uma análise de séries de tempo – que examina os pontos de dados em um determinado intervalo de tempo, como dados históricos de vendas no último ano – ajudará você a reconhecer padrões em seus dados e a extrair informações significativas. A análise revelará picos ou quedas recorrentes, como o aumento quase inevitável das vendas do quarto trimestre para as empresas de varejo, devido à atividade de compras de fim de ano. Mas, como a sazonalidade vai muito além das compras de presentes de Natal, você pode usar sua análise de séries temporais para detalhar períodos de tempo específicos ou para identificar produtos que possam ser afetados. Por exemplo, a análise sazonal de uma empresa em movimento pode mostrar que poucos movimentos ocorrem no inverno, o que pode levar a empresa a emprestar seus caminhões e funcionários para serviços de entrega durante esse período para manter a receita alta. Ou, um varejista pode determinar a sazonalidade de categorias de produtos específicas que vende (por exemplo, roupas esportivas, bolsas e roupas de baixo) e aumentar seus esforços de marketing imediatamente antes da alta temporada desses itens – e minimizar o gasto com publicidade quando a demanda é baixa. Mesmo as flutuações diárias caem sob a sazonalidade. Um produtor de podcast, por exemplo, pode ver quando os episódios estão sendo baixados. Se os ouvintes estiverem baixando episódios principalmente às 8h e 20h, o produtor pode presumir que a sazonalidade dos downloads é relacionada ao trajeto e comercializar de acordo. Olhando para tendências versus sazonalidade Sua análise de séries temporais não leva em conta apenas a sazonalidade. Também pode mostrar as tendências gerais da sua empresa. É importante notar, no entanto, que a sazonalidade pode obscurecer essas tendências. Por exemplo, em uma visão não ajustada de seus dados de vendas, você pode ver uma tendência de alta acentuada durante a temporada de férias – mas essa tendência se acelerou a partir da temporada de festas anterior ou permaneceu a mesma? Você não saberá essa resposta até que você ajuste sazonalmente seus dados, o que significa que você remove os picos e vales regulares da sequência de pontos de dados. Depois de remover esse componente, você deixa para trás os dados que não são alterados com base na estação, no clima ou em outro fator recorrente. Por que isso é importante? Tendências, não analisadas, vão te enganar e interpretar mal seus dados e tomar decisões erradas. Vamos dizer que você está vendendo um produto e os negócios estão em baixa. Você está pensando em retrabalhar seu produto até novembro chegar e, surpreendentemente, suas vendas começarão a subir novamente. Embora você possa ficar tentado a manter sua oferta atual de produtos – talvez esteja de volta em grande estilo – seus dados ajustados sazonalmente contam uma história diferente. Na verdade, o que parecia ser uma tendência ascendente era apenas um efeito sazonal. Seus dados ajustados sazonalmente indicam que a tendência de queda do seu negócio continua inalterada. Você decide de forma inteligente retrabalhar sua oferta de produtos. Aproveitando ao máximo a sazonalidade Como sua análise de séries de tempo pode ter mostrado, acompanhar a sazonalidade é um negócio complicado. Ele engloba padrões climáticos, práticas de negócios, feriados e muito mais. Descobrir como alavancar isso exige uma compreensão profunda de seus efeitos, bem como o conhecimento da sua empresa e dos mercados que você atende. Felizmente, se você tiver os dados certos, a capacidade de identificar padrões estará bem ao alcance. É como você aborda essas flutuações previsíveis – seja por meio de campanhas de marketing ou mudanças administrativas – que podem fazer ou quebrar seus negócios.   Quer aprender mais sobre series temporais? Conheça nosso curso de formação completa no assunto!

Sazonalidade: Qual o significado e como usá-la? Read More »

previsão em series temporais

7 meios para migrar de Machine Learning para previsão de séries temporais

Introdução A Séries Temporais O objetivo de um modelo preditivo é estimar o valor de uma variável desconhecida. Uma série temporal tem tempo (t) como uma variável independente (em qualquer unidade que você possa imaginar) e uma variável dependente de destino A saída do modelo é o valor previsto para y no tempo t . Na maioria dos casos, uma previsão é um valor específico, por exemplo, o tipo de objeto em uma imagem, o valor de uma casa, se um email é spam ou não, etc. No entanto, uma previsão é uma previsão (representando a média ou média ) que inclui um intervalo de confiança que expressa o nível de certeza. Normalmente, os níveis de confiança de 80% e 95% são fornecidos. Sempre que os dados são registrados em intervalos regulares de tempo, eles são chamados de séries temporais. Você pode pensar nesse tipo de variável de duas maneiras: Os dados são univariados, mas possuem um índice (tempo) que cria uma ordem implícita; ou O conjunto de dados tem duas dimensões: o tempo (variável independente) e a própria variável como variável dependente. Se você tiver experiência trabalhando em aprendizado de máquina, precisará fazer alguns ajustes ao trabalhar com séries temporais. Abaixo estão sete principais diferenças a ter em mente ao fazer a transição. Componentes da série temporal Tendência: Existe uma tendência quando uma série aumenta, diminui ou permanece em um nível constante em relação ao tempo. Portanto, o tempo é tomado como um recurso. Sazonalidade : refere-se à propriedade de uma série temporal que exibe padrões periódicos que se repetem em uma frequência constante ( m ). No exemplo a seguir, você pode observar um componente sazonal com m = 12, o que significa que o padrão periódico se repete a cada doze meses. (Geralmente, para lidar com a sazonalidade, os modelos de séries temporais incluem variáveis ​​sazonais como recursos fictícios, usando variáveis ​​binárias m – 1 para evitar a correlação entre os recursos). Ciclos: os ciclos são temporadas que não ocorrem a uma taxa fixa. Por exemplo, nas séries cronológicas abaixo, as armadilhas anuais da Canadian Lynx exibem padrões sazonais e cíclicos. Estes não se repetem em intervalos de tempo regulares e podem ocorrer mesmo se a frequência for 1 ( m = 1). Preditores da série temporal Variáveis ​​dummy: Similar a como a sazonalidade pode ser adicionada como um recurso binário, outros recursos podem ser adicionados em formato binário ao modelo. Você pode adicionar feriados, eventos especiais, campanhas de marketing, se um valor é outlier ou não, etc. No entanto, você deve lembrar que essas variáveis ​​precisam ter padrões definidos. Número de dias: podem ser facilmente calculados mesmo para os próximos meses / trimestres e podem afetar as previsões, especialmente para dados financeiros. Aqui você pode incluir: Número de dias Número de dias de negociação Número de dias de fim de semana …e assim por diante Valores com atraso: você pode incluir valores defasados ​​da variável como preditores. Alguns modelos como ARIMA, Autoregressão Vetorial (VAR) ou Redes Neurais Autorregressivas (NNAR) funcionam dessa maneira. Os componentes da série temporal são altamente importantes para analisar a variável de interesse, a fim de entender seu comportamento, os padrões que ela possui e para poder escolher e ajustar um modelo de série temporal apropriado. Preditores de séries temporais, por outro lado, podem ajudar alguns modelos a reconhecer padrões adicionais e melhorar a qualidade das previsões. Os componentes e recursos da série temporal são fundamentais para interpretar o comportamento da série temporal, analisar suas propriedades, identificar possíveis causas e muito mais. 2. Pode haver conjuntos de dados menores. Você pode estar acostumado a alimentar milhares, milhões ou bilhões de pontos de dados em um modelo de aprendizado de máquina, mas isso nem sempre é o caso das séries temporais. Na verdade, você pode estar trabalhando com séries temporais de tamanho pequeno a médio, dependendo da frequência e do tipo de variável. À primeira vista, você pode pensar que isso é uma desvantagem. Mas, na realidade, há alguns benefícios em ter séries temporais de tamanho pequeno a médio: Os conjuntos de dados se encaixam na memória do seu computador. Em alguns casos, você pode analisar todo o conjunto de dados e não apenas uma amostra. A duração da série temporal é conveniente para criar gráficos que possam ser analisados ​​graficamente. Este é um ponto muito importante, porque nos baseamos fortemente em análises de plotagem na etapa de análise de séries temporais. Isso não significa que você não estará trabalhando com grandes séries temporais, mas também deve estar preparado e ser capaz de lidar com séries temporais menores. Qualquer conjunto de dados que inclua um campo relacionado ao tempo pode se beneficiar da análise e previsão de séries temporais. No entanto, se você tiver um conjunto de dados maior, um Banco de Dados de Séries Temporais (TSDB) poderá ser mais apropriado. Alguns desses conjuntos de dados vêm de eventos registrados com timestamp, logs de sistemas, dados financeiros, dados obtidos de sensores ( IoT ), etc. Como o TSDB trabalha nativamente com séries temporais, é uma ótima oportunidade para aplicar a técnica de séries temporais em larga escala. conjuntos de dados 3. Uma abordagem algorítmica diferente é necessária. Uma das propriedades mais importantes que um algoritmo precisa para ser considerado um algoritmo de série temporal é a capacidade de extrapolar padrões fora do domínio de dados de treinamento. Muitos algoritmos de aprendizado de máquina não possuem esse recurso, pois tendem a estar restritos a um domínio definido por dados de treinamento. Portanto, eles não são adequados para séries temporais, pois o objetivo das séries temporais é projetar no futuro. Outra propriedade importante de um algoritmo de série temporal é a capacidade de derivar intervalos de confiança. Embora essa seja uma propriedade padrão dos modelos de séries temporais, a maioria dos modelos de aprendizado de máquina não possui essa capacidade, pois nem todos são baseados em distribuições estatísticas. Intervalos de confiança podem ser estimados, mas podem não ser tão precisos. Isso será expandido em mais detalhes na Seção 6. Você pode pensar que apenas modelos estatísticos simples são usados ​​para previsão de séries temporais. Isso não é totalmente verdadeiro. Existem muitos modelos ou abordagens complexas que podem ser muito úteis em alguns casos. Heteroskedasticity condicional autorregressiva generalizada (GARCH), modelos baseados em Bayesian e VAR

7 meios para migrar de Machine Learning para previsão de séries temporais Read More »