data mart tutorial types
Este tutorial explica os conceitos do Data Mart, incluindo a implementação, os tipos e a estrutura do Data Mart, bem como as diferenças entre o Data Warehouse e o Data Mart:
Nisso Série completa de treinamento de data warehouse , demos uma olhada nos vários Esquemas de Data Warehouse em detalhe.
Este tutorial ajudará você a aprender os conceitos do Data Mart em detalhes, juntamente com exemplos simples.
Veremos O que é um data mart? Quando precisamos de um data mart? Data marting de baixo custo, Custo de um data mart, Tipos de data marts, Etapas na implementação de um data mart, A estrutura de um data mart, Quando um Data Mart piloto é útil? Desvantagens do Datamart e as diferenças entre Data Warehouse e Data Mart.
Público-alvo
- Desenvolvedores e testadores de data warehouse / ETL.
- Profissionais de banco de dados com conhecimento básico de conceitos de banco de dados.
- Administradores de banco de dados / especialistas em Big Data que desejam entender os conceitos de data warehouse / ETL.
- Graduados / recém-formados que procuram empregos em Data warehouse.
O que você aprenderá:
- O que é um Data Mart?
- Comparação de Data Warehouse Vs Data Mart
- Tipos de data marts
- Etapas de implementação de um Data Mart
- Estrutura de um Data Mart
- Quando um Pilot Data Mart é útil?
- Desvantagens do Data Mart
- Conclusão
O que é um Data Mart?
Um data mart é uma pequena parte do data warehouse que está principalmente relacionada a um domínio de negócios específico, como marketing (ou) vendas, etc.
Os dados armazenados no sistema DW são enormes, portanto, os data marts são projetados com um subconjunto de dados que pertence a departamentos individuais. Assim, um grupo específico de usuários pode utilizar facilmente esses dados para sua análise.
Ao contrário de um data warehouse que possui muitas combinações de usuários, cada data mart terá um conjunto específico de usuários finais. O menor número de usuários finais resulta em melhor tempo de resposta.
Os data marts também podem ser acessados por ferramentas de business intelligence (BI). Data marts não contêm dados duplicados (ou) não utilizados. Eles são atualizados em intervalos regulares. Eles são bancos de dados orientados por assunto e flexíveis. Cada equipe tem o direito de desenvolver e manter seus data marts sem modificar o data warehouse (ou) os dados de outros data marts.
Um data mart é mais adequado para pequenas empresas, pois custa muito menos do que um sistema de data warehouse. O tempo necessário para construir um data mart também é menor do que o tempo necessário para construir um data warehouse.
Representação pictórica de vários data marts:
Quando precisamos do Data Mart?
Com base na necessidade, planeje e projete um data mart para seu departamento, envolvendo as partes interessadas, porque o custo operacional do data mart pode ser alto algumas vezes.
Considere os motivos abaixo para construir um data mart:
- Se você deseja particionar os dados com um conjunto de estratégia de controle de acesso do usuário.
- Se um determinado departamento deseja ver os resultados da consulta muito mais rápido, em vez de digitalizar grandes dados DW.
- Se um departamento deseja que os dados sejam construídos em outras plataformas de hardware (ou) software.
- Se um departamento deseja que os dados sejam projetados de maneira adequada às suas ferramentas.
Custo-benefício Data Mart
Um data mart de baixo custo pode ser construído pelas seguintes etapas:
- Identifique as divisões funcionais: Divida os dados da organização em dados específicos de cada data mart (departamental) para atender aos seus requisitos, sem qualquer dependência organizacional adicional.
- Identifique os requisitos da ferramenta de acesso do usuário: Pode haver diferentes ferramentas de acesso do usuário no mercado que precisam de estruturas de dados diferentes. Data marts são usados para dar suporte a todas essas estruturas internas sem perturbar os dados DW. Um data mart pode ser associado a uma ferramenta de acordo com as necessidades do usuário. Os data marts também podem fornecer dados atualizados para essas ferramentas diariamente.
- Identificar problemas de controle de acesso: Se diferentes segmentos de dados em um sistema DW precisam de privacidade e devem ser acessados por um conjunto de usuários autorizados, todos esses dados podem ser movidos para data marts.
Custo do Data Mart
O custo do data mart pode ser estimado da seguinte forma:
- Custo de hardware e software: Qualquer data mart recém-adicionado pode precisar de hardware, software, poder de processamento, rede e espaço de armazenamento em disco extra para trabalhar nas consultas solicitadas pelos usuários finais. Isso torna a marcação de dados uma estratégia cara. Portanto, o orçamento deve ser planejado com precisão.
- Acesso à rede: Se a localização do data mart for diferente daquela do data warehouse, todos os dados devem ser transferidos com o processo de carregamento do data mart. Portanto, uma rede deve ser fornecida para transferir grandes volumes de dados que podem ser caros.
- Restrições da janela de tempo: O tempo necessário para o processo de carregamento do data mart dependerá de vários fatores, como complexidade e volumes de dados, capacidade da rede, mecanismos de transferência de dados, etc.
Comparação de Data Warehouse Vs Data Mart
S.No | Armazém de dados | Data Mart |
---|---|---|
1 | Complexo e mais caro para implementar. | Simples e barato de implementar. |
dois | Trabalha no nível da organização para todo o negócio. | O escopo é limitado a um determinado departamento. |
3 | Consultar o DW é difícil para usuários de negócios devido às enormes dependências de dados. | Consultar o data mart é fácil para usuários de negócios devido aos dados limitados. |
4 | O tempo de implementação pode ser mais em meses ou anos. | O tempo de implementação é menor, podendo ser em dias, semanas ou meses. |
5 | Reúne dados de vários sistemas de origem externa. | Reúne dados de alguns sistemas de fonte DW (ou) internos (ou) externos centralizados. |
6 | As decisões estratégicas podem ser feitas. | As decisões de negócios podem ser feitas. |
Tipos de data marts
Os data marts são classificados em três tipos, ou seja, dependente, independente e híbrido. Essa classificação é baseada em como eles foram preenchidos, ou seja, a partir de um data warehouse (ou) de qualquer outra fonte de dados.
Extração, transformação e transporte (ETT) é o processo usado para preencher os dados do data mart de qualquer sistema de origem.
Vamos dar uma olhada em cada tipo em detalhes !!
# 1) Data Mart dependente
Em um data mart dependente, os dados são originados do próprio data warehouse existente. Esta é uma abordagem de cima para baixo porque a parte dos dados reestruturados no data mart é extraída do data warehouse centralizado.
Prós e contras de banco de dados relacional vs não relacional
Um data mart pode usar dados DW logicamente ou fisicamente, conforme mostrado abaixo:
- Visão Lógica: Neste cenário, os dados do data mart não são fisicamente separados do DW. Refere-se aos dados DW por meio de exibições virtuais (ou) tabelas logicamente.
- Subconjunto físico: Neste cenário, os dados do data mart são fisicamente separados do DW.
Depois que um ou mais data marts forem desenvolvidos, você pode permitir que os usuários acessem apenas os data marts (ou) para acessar ambos os data marts e data warehouses.
O ETT é um processo simplificado no caso de data marts dependentes porque os dados utilizáveis já existem no DW centralizado. O conjunto preciso de dados resumidos deve ser simplesmente movido para os respectivos data marts.
Uma imagem do Dependent Data Mart é mostrada abaixo :
# 2) Independent Data Mart
Um data mart independente é mais adequado para pequenos departamentos de uma organização. Aqui, os dados não são originados do data warehouse existente. O data mart Independent não depende do DW empresarial nem de outros data marts.
Data marts independentes são sistemas autônomos onde os dados são extraídos, transformados e carregados de fontes de dados externas (ou) internas. Eles são fáceis de projetar e manter até que estejam atendendo às necessidades de negócios mais simples do departamento.
Você tem que trabalhar com cada fase do processo ETT no caso de data marts independentes de uma forma semelhante à forma como os dados foram processados no DW centralizado. No entanto, o número de fontes e os dados preenchidos para os data marts podem ser menores.
Representação pictórica de um Data Mart Independent :
# 3) Hybrid Data Mart
Em um data mart híbrido, os dados são integrados do DW e de outros sistemas operacionais. Data marts híbridos são flexíveis com grandes estruturas de armazenamento. Também pode se referir a outros dados de data marts.
Representação pictórica de um Hybrid Data Mart:
Etapas de implementação de um Data Mart
A implementação do Data Mart, que é considerada um pouco complexa, é explicada nas etapas abaixo:
- Projetando: Desde o momento em que os usuários de negócios solicitam um data mart, a fase de design envolve a coleta de requisitos, a criação de dados apropriados das respectivas fontes de dados, a criação de estruturas de dados lógicas e físicas e diagramas ER.
- Construindo: A equipe projetará todas as tabelas, visualizações, índices, etc., no sistema de data mart.
- Povoando: Os dados serão extraídos, transformados e carregados no data mart junto com os metadados.
- Acessando: Os dados do Data Mart estão disponíveis para serem acessados pelos usuários finais. Eles podem consultar os dados para suas análises e relatórios.
- Gerenciando: Isso envolve várias tarefas gerenciais, como controles de acesso do usuário, ajuste fino do desempenho de data mart, manutenção de data marts existentes e criação de cenários de recuperação de data mart em caso de falha do sistema.
Estrutura de um Data Mart
A estrutura de cada data mart é criada de acordo com o requisito. As estruturas do Data Mart são chamadas de Star joins. Essa estrutura será diferente de um data mart para outro.
Star joins são estruturas multidimensionais formadas com tabelas de fatos e dimensões para suportar grandes quantidades de dados. A junção em estrela terá uma tabela de fatos no centro, cercada pelas tabelas de dimensão.
Os dados da tabela de fatos respectivos são associados aos dados das tabelas de dimensão com uma referência de chave estrangeira. Uma tabela de fatos pode ser cercada por 20-30 tabelas de dimensão.
Semelhante ao sistema DW, também em star joins, as tabelas de fatos contêm apenas dados numéricos e os respectivos dados textuais podem ser descritos em tabelas de dimensão. Essa estrutura se assemelha a um esquema em estrela em DW.
Representação pictórica de uma estrutura de junção em estrela.
Mas os dados granulares do DW centralizado são a base para os dados de qualquer data mart. Muitos cálculos serão realizados nos dados DW normalizados para transformá-los em dados de data marts multidimensionais que são armazenados na forma de cubos.
Isso funciona da mesma forma como os dados de sistemas de origem legados são transformados em dados DW normalizados.
Quando um Pilot Data Mart é útil?
Um piloto pode ser implantado em um ambiente pequeno com um número restrito de usuários para garantir que a implantação seja bem-sucedida antes da implantação completa. No entanto, isso não é essencial o tempo todo. As implantações piloto serão inúteis uma vez que o propósito seja atendido.
Você precisa considerar os cenários abaixo que são recomendados para a implantação piloto:
- Se os usuários finais são novos no sistema de data warehouse.
- Se os usuários finais quiserem se sentir confortáveis para recuperar dados / relatórios por conta própria antes de ir para a produção.
- Se os usuários finais quiserem usar as ferramentas (ou) tecnologias mais recentes.
- Se a gerência quiser ver os benefícios como uma prova de conceito antes de torná-los um grande lançamento.
- Se a equipe quiser se certificar de que todos os componentes ETL (ou) componentes de infraestrutura funcionam bem antes do lançamento.
Desvantagens do Data Mart
Embora os data marts tenham alguns benefícios em relação ao DW, eles também têm algumas desvantagens, conforme explicado abaixo:
- Data marts indesejados que foram criados são difíceis de manter.
- Os data marts destinam-se às necessidades das pequenas empresas. Aumentar o tamanho dos data marts diminuirá seu desempenho.
- Se você estiver criando um número maior de data marts, o gerenciamento deve cuidar adequadamente de seu controle de versão, segurança e desempenho.
- Data marts podem conter dados históricos (ou) resumidos (ou) detalhados. No entanto, as atualizações nos dados DW e nos dados do data mart podem não acontecer ao mesmo tempo devido a problemas de inconsistência de dados.
Conclusão
Muitas organizações estão se voltando para data marts de uma perspectiva de economia de custos. Portanto, este tutorial enfocou os aspectos técnicos dos data marts no sistema de data warehouse.
Metadados em ETL são explicados em detalhes em nosso próximo tutorial.
=> Visite aqui para ver a série de treinamento de armazenamento de dados para todos.
Leitura recomendada
- Tutorial de teste de data warehouse com exemplos | Guia de teste ETL
- Tipos de dados Python
- Tipos de dados C ++
- Modelo de dados dimensionais em data warehouse - tutorial com exemplos
- Algoritmo a priori em mineração de dados: implementação com exemplos
- Exemplos de mineração de dados: aplicações mais comuns de mineração de dados 2021
- Fundamentos de armazenamento de dados: um guia definitivo com exemplos
- Tutorial de teste de volume: exemplos e ferramentas de teste de volume