ileoh – Page 3 – Portal Data Science

Introdução a clusterização e os diferentes métodos

O método de identificação de grupos de dados semelhantes em um conjunto de dados é chamado de cluster. As entidades de cada grupo são comparativamente mais semelhantes às entidades desse grupo do que as dos outros grupos. Neste artigo, estarei conduzindo você pelos tipos de cluster, diferentes algoritmos de clusterização e uma comparação entre dois dos métodos de clusterização mais usados. Vamos começar. Visão Geral de clusterização Clusterização é a tarefa de dividir a população ou os pontos de dados em vários grupos, de modo que os pontos de dados nos mesmos grupos sejam mais semelhantes a outros pontos de dados no mesmo grupo do que os de outros grupos. Em palavras simples, o objetivo é segregar grupos com traços semelhantes e atribuí-los a clusters. Vamos entender isso com um exemplo. Suponha que você seja o chefe de uma loja de aluguel e queira entender as preferências de seus clientes para expandir seus negócios. É possível que você veja os detalhes de cada cliente e crie uma estratégia comercial única para cada um deles? Definitivamente não. Mas o que você pode fazer é agrupar todos os seus clientes em 10 grupos com base em seus hábitos de compra e usar uma estratégia separada para clientes em cada um desses 10 grupos. E isso é o que chamamos de clustering. Agora, entendemos o que é clustering. Vamos dar uma olhada nos tipos de clustering. Tipos de Cluster De um modo geral, clusterização pode ser dividido em dois subgrupos: Cluster Difícil: No cluster difícil, cada ponto de dados ou pertence a um cluster completamente ou não. Por exemplo, no exemplo acima, cada cliente é colocado em um grupo dos 10 grupos. Cluster flexível: No cluster flexível, em vez de colocar cada ponto de dados em um cluster separado, uma probabilidade ou probabilidade de que o ponto de dados esteja nesses clusters é atribuída. Por exemplo, no cenário acima, a cada cliente é atribuída uma probabilidade de estar em qualquer um dos 10 clusters da loja de varejo. Tipos de algoritmos de clustering Como a tarefa de agrupamento é subjetiva, os meios que podem ser usados para atingir esse objetivo são muitos. Toda metodologia segue um conjunto diferente de regras para definir a ‘ similaridade’ entre os pontos de dados. De fato, existem mais de 100 algoritmos de clusterização conhecidos. Mas poucos dos algoritmos são usados popularmente, vamos olhá-los detalhadamente: Modelos de conectividade: Como o nome sugere, esses modelos baseiam-se na noção de que os dados apontados mais de perto no espaço de dados exibem mais semelhanças entre si do que os pontos de dados mais distantes. Esses modelos podem seguir duas abordagens. Na primeira abordagem, eles começam classificando todos os pontos de dados em clusters separados e, em seguida, agregando-os à medida que a distância diminui. Na segunda abordagem, todos os pontos de dados são classificados como um único cluster e, em seguida, particionados à medida que a distância aumenta. Além disso, a escolha da função de distância é subjetiva. Esses modelos são muito fáceis de interpretar, mas não têm escalabilidade para lidar com grandes conjuntos de dados. Exemplos desses modelos são o algoritmo de clustering hierárquico e suas variantes. Modelos centróides: são algoritmos iterativos de clustering nos quais a noção de similaridade é derivada pela proximidade de um ponto de dados ao centróide dos clusters. O algoritmo de clusterização K-Means é um algoritmo popular que se enquadra nessa categoria. Nestes modelos, o não. de clusters necessários no final tem que ser mencionado de antemão, o que torna importante ter conhecimento prévio do conjunto de dados. Esses modelos são executados iterativamente para encontrar o ótimo local. Modelos de distribuição: Esses modelos de armazenamento em cluster são baseados na noção de como é provável que todos os pontos de dados no cluster pertençam à mesma distribuição (por exemplo: Normal, Gaussian). Esses modelos geralmente sofrem de overfitting. Um exemplo popular desses modelos é o algoritmo de maximização de expectativas, que usa distribuições normais multivariadas. Modelos de densidade: esses modelos pesquisam o espaço de dados para áreas de densidade variada de pontos de dados no espaço de dados. Ele isola várias regiões de densidade diferentes e atribui os pontos de dados dentro dessas regiões no mesmo cluster. Exemplos populares de modelos de densidade são o DBSCAN e o OPTICS. Agora vou levá-lo através de dois dos algoritmos de cluster mais populares em detalhes – K Means Clustering e Hierarchical Clustering. Vamos começar. K-Means Clusters K means é um algoritmo iterativo de clustering que visa encontrar o máximo local em cada iteração. Este algoritmo funciona nestes 5 passos: Especifique o número desejado de clusters K: Vamos escolher k = 2 para esses 5 pontos de dados no espaço 2-D. Atribuir aleatoriamente cada ponto de dados a um cluster: Vamos atribuir três pontos no cluster 1 mostrados usando a cor vermelha e dois pontos no cluster 2 mostrados usando a cor cinza. Centróides de cluster de cálculo: O centroide dos pontos de dados no cluster vermelho é mostrado usando a cruz vermelha e os do cluster cinza usando a cruz cinza. Atribua novamente cada ponto ao centróide de cluster mais próximo: Observe que apenas o ponto de dados na parte inferior é atribuído ao cluster vermelho, embora esteja mais próximo do centróide do cluster cinza. Assim, atribuímos esse ponto de dados ao cluster cinza Re-compute centróides de cluster: Agora, re-computando os centróides para ambos os clusters. Repita os passos 4 e 5 até há melhorias são possíveis: Da mesma forma, vamos repetir os 4 th e 5 thpassos até que nós vamos chegar optima global. Quando não haverá mais troca de pontos de dados entre dois clusters por duas repetições sucessivas. Ele marcará a terminação do algoritmo se não for explicitamente mencionado. Clusterização Hierárquica O clustering hierárquico, como o nome sugere, é um algoritmo que constrói a hierarquia de clusters. Esse algoritmo começa com todos os pontos de dados atribuídos a um cluster próprio. Em seguida, dois clusters mais próximos são mesclados no mesmo cluster. No final, esse algoritmo termina quando há apenas um único cluster. Os resultados do agrupamento hierárquico podem ser mostrados usando o dendrograma. O dendrograma pode ser interpretado como: Na parte inferior, começamos com 25 pontos de dados, cada um atribuído a clusters separados. Dois aglomerados mais

Introdução a clusterização e os diferentes métodos Read More »

Sazonalidade: Qual o significado e como usá-la?

Blog / ileoh

Entenda o significado de sazonalidade nesse artigo e porque ela é importante! Quedas de vendas e picos são uma parte quase inevitável de fazer negócios. Mas se você está ignorando quando e por que eles acontecem, você está perdendo oportunidades de mitigar ou alavancar seus efeitos. Há um termo para essas flutuações previsíveis: sazonalidade. A palavra “sazonalidade” é realmente um equívoco: isso implica que esses padrões estão relacionados às estações do ano ou ao clima, quando, na verdade, podem ser o resultado de vários fatores. Por exemplo, uma empresa pública que vê uma queda no valor de suas ações após a divulgação dos relatórios de lucros a cada trimestre está experimentando sazonalidade. E a sazonalidade também pode ocorrer em qualquer intervalo de tempo, seja anual ou diário. Portanto, a sazonalidade é diferente para todos os negócios. A chave para entender os padrões de suas experiências particulares de negócios é usar seus dados para prever quando essas flutuações ocorrerão e, em seguida, criar estratégias de acordo. O que a sazonalidade pode dizer Então, onde você começa? Bem, uma análise de séries de tempo – que examina os pontos de dados em um determinado intervalo de tempo, como dados históricos de vendas no último ano – ajudará você a reconhecer padrões em seus dados e a extrair informações significativas. A análise revelará picos ou quedas recorrentes, como o aumento quase inevitável das vendas do quarto trimestre para as empresas de varejo, devido à atividade de compras de fim de ano. Mas, como a sazonalidade vai muito além das compras de presentes de Natal, você pode usar sua análise de séries temporais para detalhar períodos de tempo específicos ou para identificar produtos que possam ser afetados. Por exemplo, a análise sazonal de uma empresa em movimento pode mostrar que poucos movimentos ocorrem no inverno, o que pode levar a empresa a emprestar seus caminhões e funcionários para serviços de entrega durante esse período para manter a receita alta. Ou, um varejista pode determinar a sazonalidade de categorias de produtos específicas que vende (por exemplo, roupas esportivas, bolsas e roupas de baixo) e aumentar seus esforços de marketing imediatamente antes da alta temporada desses itens – e minimizar o gasto com publicidade quando a demanda é baixa. Mesmo as flutuações diárias caem sob a sazonalidade. Um produtor de podcast, por exemplo, pode ver quando os episódios estão sendo baixados. Se os ouvintes estiverem baixando episódios principalmente às 8h e 20h, o produtor pode presumir que a sazonalidade dos downloads é relacionada ao trajeto e comercializar de acordo. Olhando para tendências versus sazonalidade Sua análise de séries temporais não leva em conta apenas a sazonalidade. Também pode mostrar as tendências gerais da sua empresa. É importante notar, no entanto, que a sazonalidade pode obscurecer essas tendências. Por exemplo, em uma visão não ajustada de seus dados de vendas, você pode ver uma tendência de alta acentuada durante a temporada de férias – mas essa tendência se acelerou a partir da temporada de festas anterior ou permaneceu a mesma? Você não saberá essa resposta até que você ajuste sazonalmente seus dados, o que significa que você remove os picos e vales regulares da sequência de pontos de dados. Depois de remover esse componente, você deixa para trás os dados que não são alterados com base na estação, no clima ou em outro fator recorrente. Por que isso é importante? Tendências, não analisadas, vão te enganar e interpretar mal seus dados e tomar decisões erradas. Vamos dizer que você está vendendo um produto e os negócios estão em baixa. Você está pensando em retrabalhar seu produto até novembro chegar e, surpreendentemente, suas vendas começarão a subir novamente. Embora você possa ficar tentado a manter sua oferta atual de produtos – talvez esteja de volta em grande estilo – seus dados ajustados sazonalmente contam uma história diferente. Na verdade, o que parecia ser uma tendência ascendente era apenas um efeito sazonal. Seus dados ajustados sazonalmente indicam que a tendência de queda do seu negócio continua inalterada. Você decide de forma inteligente retrabalhar sua oferta de produtos. Aproveitando ao máximo a sazonalidade Como sua análise de séries de tempo pode ter mostrado, acompanhar a sazonalidade é um negócio complicado. Ele engloba padrões climáticos, práticas de negócios, feriados e muito mais. Descobrir como alavancar isso exige uma compreensão profunda de seus efeitos, bem como o conhecimento da sua empresa e dos mercados que você atende. Felizmente, se você tiver os dados certos, a capacidade de identificar padrões estará bem ao alcance. É como você aborda essas flutuações previsíveis – seja por meio de campanhas de marketing ou mudanças administrativas – que podem fazer ou quebrar seus negócios. Quer aprender mais sobre series temporais? Conheça nosso curso de formação completa no assunto!

Sazonalidade: Qual o significado e como usá-la? Read More »

7 meios para migrar de Machine Learning para previsão de séries temporais

Blog / ileoh

Introdução A Séries Temporais O objetivo de um modelo preditivo é estimar o valor de uma variável desconhecida. Uma série temporal tem tempo (t) como uma variável independente (em qualquer unidade que você possa imaginar) e uma variável dependente de destino A saída do modelo é o valor previsto para y no tempo t . Na maioria dos casos, uma previsão é um valor específico, por exemplo, o tipo de objeto em uma imagem, o valor de uma casa, se um email é spam ou não, etc. No entanto, uma previsão é uma previsão (representando a média ou média ) que inclui um intervalo de confiança que expressa o nível de certeza. Normalmente, os níveis de confiança de 80% e 95% são fornecidos. Sempre que os dados são registrados em intervalos regulares de tempo, eles são chamados de séries temporais. Você pode pensar nesse tipo de variável de duas maneiras: Os dados são univariados, mas possuem um índice (tempo) que cria uma ordem implícita; ou O conjunto de dados tem duas dimensões: o tempo (variável independente) e a própria variável como variável dependente. Se você tiver experiência trabalhando em aprendizado de máquina, precisará fazer alguns ajustes ao trabalhar com séries temporais. Abaixo estão sete principais diferenças a ter em mente ao fazer a transição. Componentes da série temporal Tendência: Existe uma tendência quando uma série aumenta, diminui ou permanece em um nível constante em relação ao tempo. Portanto, o tempo é tomado como um recurso. Sazonalidade : refere-se à propriedade de uma série temporal que exibe padrões periódicos que se repetem em uma frequência constante ( m ). No exemplo a seguir, você pode observar um componente sazonal com m = 12, o que significa que o padrão periódico se repete a cada doze meses. (Geralmente, para lidar com a sazonalidade, os modelos de séries temporais incluem variáveis sazonais como recursos fictícios, usando variáveis binárias m – 1 para evitar a correlação entre os recursos). Ciclos: os ciclos são temporadas que não ocorrem a uma taxa fixa. Por exemplo, nas séries cronológicas abaixo, as armadilhas anuais da Canadian Lynx exibem padrões sazonais e cíclicos. Estes não se repetem em intervalos de tempo regulares e podem ocorrer mesmo se a frequência for 1 ( m = 1). Preditores da série temporal Variáveis dummy: Similar a como a sazonalidade pode ser adicionada como um recurso binário, outros recursos podem ser adicionados em formato binário ao modelo. Você pode adicionar feriados, eventos especiais, campanhas de marketing, se um valor é outlier ou não, etc. No entanto, você deve lembrar que essas variáveis precisam ter padrões definidos. Número de dias: podem ser facilmente calculados mesmo para os próximos meses / trimestres e podem afetar as previsões, especialmente para dados financeiros. Aqui você pode incluir: Número de dias Número de dias de negociação Número de dias de fim de semana …e assim por diante Valores com atraso: você pode incluir valores defasados da variável como preditores. Alguns modelos como ARIMA, Autoregressão Vetorial (VAR) ou Redes Neurais Autorregressivas (NNAR) funcionam dessa maneira. Os componentes da série temporal são altamente importantes para analisar a variável de interesse, a fim de entender seu comportamento, os padrões que ela possui e para poder escolher e ajustar um modelo de série temporal apropriado. Preditores de séries temporais, por outro lado, podem ajudar alguns modelos a reconhecer padrões adicionais e melhorar a qualidade das previsões. Os componentes e recursos da série temporal são fundamentais para interpretar o comportamento da série temporal, analisar suas propriedades, identificar possíveis causas e muito mais. 2. Pode haver conjuntos de dados menores. Você pode estar acostumado a alimentar milhares, milhões ou bilhões de pontos de dados em um modelo de aprendizado de máquina, mas isso nem sempre é o caso das séries temporais. Na verdade, você pode estar trabalhando com séries temporais de tamanho pequeno a médio, dependendo da frequência e do tipo de variável. À primeira vista, você pode pensar que isso é uma desvantagem. Mas, na realidade, há alguns benefícios em ter séries temporais de tamanho pequeno a médio: Os conjuntos de dados se encaixam na memória do seu computador. Em alguns casos, você pode analisar todo o conjunto de dados e não apenas uma amostra. A duração da série temporal é conveniente para criar gráficos que possam ser analisados graficamente. Este é um ponto muito importante, porque nos baseamos fortemente em análises de plotagem na etapa de análise de séries temporais. Isso não significa que você não estará trabalhando com grandes séries temporais, mas também deve estar preparado e ser capaz de lidar com séries temporais menores. Qualquer conjunto de dados que inclua um campo relacionado ao tempo pode se beneficiar da análise e previsão de séries temporais. No entanto, se você tiver um conjunto de dados maior, um Banco de Dados de Séries Temporais (TSDB) poderá ser mais apropriado. Alguns desses conjuntos de dados vêm de eventos registrados com timestamp, logs de sistemas, dados financeiros, dados obtidos de sensores ( IoT ), etc. Como o TSDB trabalha nativamente com séries temporais, é uma ótima oportunidade para aplicar a técnica de séries temporais em larga escala. conjuntos de dados 3. Uma abordagem algorítmica diferente é necessária. Uma das propriedades mais importantes que um algoritmo precisa para ser considerado um algoritmo de série temporal é a capacidade de extrapolar padrões fora do domínio de dados de treinamento. Muitos algoritmos de aprendizado de máquina não possuem esse recurso, pois tendem a estar restritos a um domínio definido por dados de treinamento. Portanto, eles não são adequados para séries temporais, pois o objetivo das séries temporais é projetar no futuro. Outra propriedade importante de um algoritmo de série temporal é a capacidade de derivar intervalos de confiança. Embora essa seja uma propriedade padrão dos modelos de séries temporais, a maioria dos modelos de aprendizado de máquina não possui essa capacidade, pois nem todos são baseados em distribuições estatísticas. Intervalos de confiança podem ser estimados, mas podem não ser tão precisos. Isso será expandido em mais detalhes na Seção 6. Você pode pensar que apenas modelos estatísticos simples são usados para previsão de séries temporais. Isso não é totalmente verdadeiro. Existem muitos modelos ou abordagens complexas que podem ser muito úteis em alguns casos. Heteroskedasticity condicional autorregressiva generalizada (GARCH), modelos baseados em Bayesian e VAR

7 meios para migrar de Machine Learning para previsão de séries temporais Read More »

O que é Big Data?

Blog / ileoh

A maneira convencional pela qual podemos definir o que é Big Data são conjuntos de dados extremamente grandes, tão complexos e desorganizados que desafiam os métodos comuns e fáceis de gerenciamento de dados que foram projetados e utilizados, até o aumento extremo dos dados. Conjunto de Big datas não podem ser processados em sistemas tradicionais de gerenciamento de banco de dados e ferramentas. Eles não se encaixam em uma rede de banco de dados regular. Mas como o Big Data é criado? Nós temos algum papel nisso? Para encontrar as respostas desta questão, vamos passar para o próximo tópico. Como estamos contribuindo na criação de big data ? Toda vez que alguém abre um aplicativo em seus telefones, visita uma página da Web, se inscreve on-line em uma plataforma ou até digita em um mecanismo de pesquisa, um dado é coletado. Então, sempre que nos voltamos para nossos mecanismos de busca, respostas são criadas e coletadas. Mas, como usuários, geralmente estamos mais focados no resultado do que estamos realizando na web. Nós não nos detemos sobre o que está acontecendo nos bastidores, por exemplo, você deve ter aberto seu navegador e procurado por ” big data “, em seguida, visitou este link para ler este blog. Isso por si só contribuiu para a grande quantidade de dados grandes. Agora imagine o número de pessoas passando o tempo na internet visitando páginas da web diferentes, carregando fotos e outras coisas. Tudo isso contribui para o estoque de dados. Características de o que é big data: Existem alguns termos associados ao Big Data que realmente ajudam a tornar as coisas ainda mais claras sobre big data. Estas são essencialmente chamadas de características de big data e são denominadas como volume, velocidade e variedade, dando origem ao nome popular 3V de big data, que eu tenho certeza que você deve ter ouvido antes, mas se você não tiver, não precisa se preocupar, porque vamos discuti-los em detalhes aqui. Como as pessoas estão entendendo cada vez mais sobre o termo tecnológico em constante evolução, big data, não deveria ser um choque se mais características fossem adicionadas à lista dos 3Vs. Estes são chamados de veracidade e valor . Vamos verificar cada um deles individualmente Características de big data Volume As organizações precisam dimensionar constantemente suas soluções de armazenamento, pois grandes volumes de dados claramente exigem grande quantidade de espaço a ser armazenado. Velocidade Como big data está sendo gerado a cada segundo, as organizações precisam responder em tempo real para lidar com big data. Variedade Big data vem em várias formas. Pode ser estruturado ou não estruturado ou mesmo em formatos diferentes, como formato de texto, vídeos, imagens e muito mais. Veracidade Big data, tão grande como é, pode conter dados errados também. A incerteza dos dados é algo que as organizações precisam considerar ao lidar com big data. Valor Apenas coletar os dados grandes e armazená-los não tem nenhuma conseqüência a menos que os dados sejam analisados e uma saída útil seja produzida. Desafios do Big Data: Deve estar bastante claro agora que, ao falar sobre big data, não se pode ignorar o fato de que há alguns desafios óbvios associados a ele. Então, seguindo em frente no blog, vamos abordar alguns desses desafios. Crescimento rápido de dados: Dados crescendo a um ritmo tão rápido estão tornando um desafio encontrar os insights. Há mais e mais dados a cada segundo, a partir dos quais os dados realmente relevantes e úteis precisam ser selecionados. Armazenamento: Uma quantidade tão grande de dados é difícil de armazenar e gerenciar por organizações sem ferramentas e tecnologias apropriadas. Sincronização entre fontes de dados: Isso implica que, quando as organizações importam dados de origens diferentes, os dados de uma origem podem não estar atualizados em comparação aos dados da outra origem. Segurança: A enorme quantidade de dados nas organizações pode facilmente se tornar um alvo para ameaças persistentes avançadas, por isso aqui estabelece outro desafio para as organizações manterem seus dados seguros por autenticação adequada, criptografia de dados, etc. Dados não confiáveis: Não podemos negar o fato de que dados grandes não podem ser 100% precisos. Pode conter dados redundantes, dados incompletos e contradições. Desafios Diversos: Estes são alguns outros desafios que surgem ao lidar com big data como uma integração de dados, habilidade e disponibilidade de talentos, expenses de solução e processamento de uma grande quantidade de dados no tempo e com precisão para que os dados estejam disponíveis para os consumidores de dados sempre que precisarem isto. Tecnologias e ferramentas para ajudar a gerenciar big data: Antes de começarmos a conhecer tecnologias que podem ajudar a gerenciar Big Data, primeiro devemos nos familiarizar com um paradigma de programação muito popular chamado MapReduce . O que ele faz é permitir a realização de cálculos em enormes conjuntos de dados em múltiplos sistemas, de forma paralela. O MapReduce consiste principalmente em duas partes. O Mapa e o Reduzir . É óbvio, não é? De qualquer forma, vamos ver o que essas duas partes são usadas para: O mapa: classifica e filtra e categoriza os dados para facilitar a análise. O Reduzir: Ele mescla todos os dados e fornece o resumo. Estruturas de big data O Apache Hadoop é uma estrutura que permite o processamento paralelo de dados e o armazenamento de dados distribuídos. O Apache Spark é uma estrutura de processamento de dados distribuídos de propósito geral. Apache Kafka é uma plataforma de processamento de fluxo O Apache Cassandra é um sistema de gerenciamento de banco de dados NoSQL distribuído. Estas são algumas das muitas tecnologias usadas para manipular e gerenciar grandes volumes de dados. Aplicações de big data: Big data tem muitas aplicações em vários setores. Vamos passar por cima de algumas das aplicações em breve. Detecção de fraude O Big Data ajuda na análise de risco , gerenciamento , detecção de fraude , análise de negociação anormal . Publicidade e Marketing O Big Data ajuda as agências de publicidade a entender os padrões de comportamento do usuário e, em seguida, a obter informações sobre as motivações dos consumidores. Agricultura Big data pode ser usado para sensor de dados para aumentar a eficiência da cultura. Isso pode ser feito com o plantio de culturas de teste para registrar e armazenar os dados sobre como as culturas reagem a várias mudanças ambientais e, em seguida, usar esses dados para planejar a plantação de acordo com

O que é Big Data? Read More »

Tutorial de Modelagem de Dados para Iniciantes

Blog / ileoh

O que é modelagem de dados? Modelagem de dados é um processo de formulação de dados em um sistema de informação em uma estrutura particular, para que possa ajudar no relato fácil no futuro. Ele ajuda na análise de dados que ajudarão ainda mais a atender aos requisitos de negócios. O processo de modelagem de dados requer modeladores de dados que trabalham meticulosamente com as partes interessadas e os possíveis usuários de um sistema de informações. O processo de modelagem de dados termina com a criação de um modelo de dados que suporta a infra-estrutura do sistema de informações comerciais. A modelagem de dados é um conjunto de atividades e técnicas envolvidas na compreensão da estrutura de uma organização e também propõe soluções que permitam à organização atingir seus objetivos. Ela preenche as lacunas entre as áreas técnicas e funcionais. Importância da modelagem de dados O modelo de dados retrata um melhor entendimento dos requisitos de negócios. Ajuda na criação de um design robusto e fácil de retrabalhar. Um modelo de dados qualificado ajuda a fornecer melhor consistência em todos os projetos de uma empresa. Melhora a qualidade dos dados. Menos movimentos / distribuição de dados. Menos movimento implica menos manutenção. A reutilização do modelo de dados salva todos os esforços feitos para projetar um modelo existente. Melhora o desempenho para um núcleo. Ajuda os gerentes de projeto com melhor escopo e gerenciamento de qualidade. Três perspectivas do modelo de dados Modelo Conceitual: – Orientado ao Negócio (Entradas, Atributos e Relação) Modelo Lógico: – Elabora o ideal de todos os tipos de dados que estamos prestes a capturar. (Tabelas, colunas, etc.) Modelo Físico: -Como implementar um modelo de dados? (Tabelas, operações CRUD, índices, particionamento) Tipo de modelagem de dados Modelo plano Modelo Hierárquico Modelo de rede Modelo Dimensional Modelo Relacional Modelo Relacional de Objeto Esquema em Estrela Para aprender Modelagem de Dados, é preciso realmente entender Fatos e Dimensões . Tabela de fatos: – É uma tabela contendo medições e granularidade de cada medição é definida por dimensão relacionada. Os fatos podem ser aditivos ou semi-aditivos. Por exemplo, vendas. Dimensão: – Uma tabela que coleta campos contendo descrição para elementos de negócios e é referida por várias tabelas de fatos. Modelagem Dimensional Modelagem dimensional é uma técnica de design de data warehouse. Ele usa dimensões e fatos confirmados e ajuda na fácil navegação. O design de modelagem dimensional ajuda na consulta de desempenho rápido. Modelos dimensionais são casualmente conhecidos como esquemas em estrela. Chaves relacionadas à modelagem dimensional As chaves são importantes para entender enquanto aprendemos Modelagem de dados . As chaves da modelagem dimensional são divididas em cinco categorias. Business ou Natural Keys: – é o campo que identifica exclusivamente uma entidade. Por exemplo, ID do cliente, número do empregado. Chaves Primárias ou Alternativas: -Qualquer campo contendo um registro único pode ser chamado como chave primária. O usuário precisa selecionar uma das chaves primárias disponíveis, o restante se torna chaves alternativas. Chaves Compostas ou Compostas: -Uso de mais de um campo para representar uma chave. Chaves substitutas: – Campo sem significado comercial e geralmente são geradas automaticamente. Chaves Estrangeiras: – Campo é uma chave que aponta para chave em alguma outra tabela. O processo de modelagem de dados envolve projetar e produzir todos os tipos de modelos de dados, conforme descrito anteriormente. Esses modelos de dados são então convertidos por meio da linguagem de definição de dados. A linguagem de definição de dados é usada para gerar um banco de dados. Este banco de dados será então denominado como um modelo de dados totalmente atribuído.

Tutorial de Modelagem de Dados para Iniciantes Read More »