7 meios para migrar de Machine Learning para previsão de séries temporais
Introdução A Séries Temporais O objetivo de um modelo preditivo é estimar o valor de uma variável desconhecida. Uma série temporal tem tempo (t) como uma variável independente (em qualquer unidade que você possa imaginar) e uma variável dependente de destino A saída do modelo é o valor previsto para y no tempo t . Na maioria dos casos, uma previsão é um valor específico, por exemplo, o tipo de objeto em uma imagem, o valor de uma casa, se um email é spam ou não, etc. No entanto, uma previsão é uma previsão (representando a média ou média ) que inclui um intervalo de confiança que expressa o nível de certeza. Normalmente, os níveis de confiança de 80% e 95% são fornecidos. Sempre que os dados são registrados em intervalos regulares de tempo, eles são chamados de séries temporais. Você pode pensar nesse tipo de variável de duas maneiras: Os dados são univariados, mas possuem um índice (tempo) que cria uma ordem implícita; ou O conjunto de dados tem duas dimensões: o tempo (variável independente) e a própria variável como variável dependente. Se você tiver experiência trabalhando em aprendizado de máquina, precisará fazer alguns ajustes ao trabalhar com séries temporais. Abaixo estão sete principais diferenças a ter em mente ao fazer a transição. Componentes da série temporal Tendência: Existe uma tendência quando uma série aumenta, diminui ou permanece em um nível constante em relação ao tempo. Portanto, o tempo é tomado como um recurso. Sazonalidade : refere-se à propriedade de uma série temporal que exibe padrões periódicos que se repetem em uma frequência constante ( m ). No exemplo a seguir, você pode observar um componente sazonal com m = 12, o que significa que o padrão periódico se repete a cada doze meses. (Geralmente, para lidar com a sazonalidade, os modelos de séries temporais incluem variáveis sazonais como recursos fictícios, usando variáveis binárias m – 1 para evitar a correlação entre os recursos). Ciclos: os ciclos são temporadas que não ocorrem a uma taxa fixa. Por exemplo, nas séries cronológicas abaixo, as armadilhas anuais da Canadian Lynx exibem padrões sazonais e cíclicos. Estes não se repetem em intervalos de tempo regulares e podem ocorrer mesmo se a frequência for 1 ( m = 1). Preditores da série temporal Variáveis dummy: Similar a como a sazonalidade pode ser adicionada como um recurso binário, outros recursos podem ser adicionados em formato binário ao modelo. Você pode adicionar feriados, eventos especiais, campanhas de marketing, se um valor é outlier ou não, etc. No entanto, você deve lembrar que essas variáveis precisam ter padrões definidos. Número de dias: podem ser facilmente calculados mesmo para os próximos meses / trimestres e podem afetar as previsões, especialmente para dados financeiros. Aqui você pode incluir: Número de dias Número de dias de negociação Número de dias de fim de semana …e assim por diante Valores com atraso: você pode incluir valores defasados da variável como preditores. Alguns modelos como ARIMA, Autoregressão Vetorial (VAR) ou Redes Neurais Autorregressivas (NNAR) funcionam dessa maneira. Os componentes da série temporal são altamente importantes para analisar a variável de interesse, a fim de entender seu comportamento, os padrões que ela possui e para poder escolher e ajustar um modelo de série temporal apropriado. Preditores de séries temporais, por outro lado, podem ajudar alguns modelos a reconhecer padrões adicionais e melhorar a qualidade das previsões. Os componentes e recursos da série temporal são fundamentais para interpretar o comportamento da série temporal, analisar suas propriedades, identificar possíveis causas e muito mais. 2. Pode haver conjuntos de dados menores. Você pode estar acostumado a alimentar milhares, milhões ou bilhões de pontos de dados em um modelo de aprendizado de máquina, mas isso nem sempre é o caso das séries temporais. Na verdade, você pode estar trabalhando com séries temporais de tamanho pequeno a médio, dependendo da frequência e do tipo de variável. À primeira vista, você pode pensar que isso é uma desvantagem. Mas, na realidade, há alguns benefícios em ter séries temporais de tamanho pequeno a médio: Os conjuntos de dados se encaixam na memória do seu computador. Em alguns casos, você pode analisar todo o conjunto de dados e não apenas uma amostra. A duração da série temporal é conveniente para criar gráficos que possam ser analisados graficamente. Este é um ponto muito importante, porque nos baseamos fortemente em análises de plotagem na etapa de análise de séries temporais. Isso não significa que você não estará trabalhando com grandes séries temporais, mas também deve estar preparado e ser capaz de lidar com séries temporais menores. Qualquer conjunto de dados que inclua um campo relacionado ao tempo pode se beneficiar da análise e previsão de séries temporais. No entanto, se você tiver um conjunto de dados maior, um Banco de Dados de Séries Temporais (TSDB) poderá ser mais apropriado. Alguns desses conjuntos de dados vêm de eventos registrados com timestamp, logs de sistemas, dados financeiros, dados obtidos de sensores ( IoT ), etc. Como o TSDB trabalha nativamente com séries temporais, é uma ótima oportunidade para aplicar a técnica de séries temporais em larga escala. conjuntos de dados 3. Uma abordagem algorítmica diferente é necessária. Uma das propriedades mais importantes que um algoritmo precisa para ser considerado um algoritmo de série temporal é a capacidade de extrapolar padrões fora do domínio de dados de treinamento. Muitos algoritmos de aprendizado de máquina não possuem esse recurso, pois tendem a estar restritos a um domínio definido por dados de treinamento. Portanto, eles não são adequados para séries temporais, pois o objetivo das séries temporais é projetar no futuro. Outra propriedade importante de um algoritmo de série temporal é a capacidade de derivar intervalos de confiança. Embora essa seja uma propriedade padrão dos modelos de séries temporais, a maioria dos modelos de aprendizado de máquina não possui essa capacidade, pois nem todos são baseados em distribuições estatísticas. Intervalos de confiança podem ser estimados, mas podem não ser tão precisos. Isso será expandido em mais detalhes na Seção 6. Você pode pensar que apenas modelos estatísticos simples são usados para previsão de séries temporais. Isso não é totalmente verdadeiro. Existem muitos modelos ou abordagens complexas que podem ser muito úteis em alguns casos. Heteroskedasticity condicional autorregressiva generalizada (GARCH), modelos baseados em Bayesian e VAR
7 meios para migrar de Machine Learning para previsão de séries temporais Read More »