metadata data warehouse explained with examples
Este tutorial explica o papel dos metadados em ETL, exemplos e tipos de metadados, repositório de metadados e desafios no gerenciamento de metadados:
Data Mart em ETL foi explicado em detalhes em nosso tutorial anterior.
O conceito de Metadados é muito importante em ETL e este tutorial explicará tudo sobre Metadados.
Abrange o papel dos metadados, exemplos de metadados, bem como seus tipos, repositório de metadados, como os metadados de data warehouse podem ser gerenciados, desafios para o gerenciamento de metadados.
Você também saberá o que é ETL orientado por metadados e a diferença entre dados e metadados.
=> Leia a série de treinamento gratuito sobre data warehouse aqui.
Público-alvo
- Desenvolvedores e testadores de data warehouse / ETL.
- Profissionais de banco de dados com conhecimento básico de conceitos de banco de dados.
- Administradores de banco de dados / especialistas em big data que desejam entender as áreas de Data warehouse / ETL.
- Graduados / caloiros universitários que procuram empregos em Data warehouse.
O que você aprenderá:
o que abre um arquivo .jar
Metadados em ETL
Os usuários da equipe (ou) do data warehouse podem usar metadados em uma variedade de situações para construir, manter e gerenciar o sistema. A definição básica de metadados no data warehouse é, “São dados sobre dados” .
Os metadados podem conter todos os tipos de informações sobre dados DW, como:
- Fonte para todos os dados extraídos.
- Uso desses dados DW.
- Qualquer tipo de dado e seus valores.
- Recursos de dados.
- Lógica de transformação para dados extraídos.
- Tabelas DW e seus atributos.
- Objetos DW
- Timestamps
Os metadados atuam como um índice para os dados no sistema DW, que mostra a técnica com mais detalhes sobre esses dados. Em palavras simples, você pode pensar em um índice em qualquer livro que atue como metadados para o conteúdo desse livro.
Da mesma forma, os metadados funcionam como um índice para o conteúdo DW. Todos esses metadados são armazenados em um repositório. Ao percorrer os metadados, os usuários finais sabem de onde podem começar a analisar o sistema DW. Caso contrário, é difícil para os usuários finais saber por onde começar a análise de dados em um sistema DW tão grande.
Papel dos metadados no data warehouse
Nos primeiros dias, os metadados eram criados e mantidos como documentos. Mas no mundo digital de hoje, várias ferramentas tornaram esse trabalho mais fácil, registrando metadados em cada nível do processo de DW.
Os metadados criados por uma ferramenta podem ser padronizados (ou seja, os dados podem ser colocados em um formato único) e podem ser reutilizados em outras ferramentas em qualquer lugar no sistema DW.
Como sabemos que os sistemas operacionais mantêm os dados atuais, os sistemas DW mantêm os dados históricos e atuais.
Os metadados devem manter um registro de todas as mudanças que acontecem nos sistemas de origem, métodos de extração / transformação de dados e na estrutura (ou) conteúdo dos dados que surgirão neste processo. Os metadados manterão várias versões para controlar todas essas mudanças ao longo de vários anos.
Metadados suficientes fornecidos no repositório ajudarão qualquer usuário a analisar o sistema de forma mais eficiente e independente. Ao compreender os metadados, você pode executar qualquer tipo de consulta nos dados DW para obter os melhores resultados.
Representação pictórica do papel dos metadados:
Exemplos de metadados em termos simples
A seguir estão alguns exemplos de Metadados.
- Os metadados de uma página da web podem conter a linguagem em que está codificada, as ferramentas usadas para criá-la, navegadores de suporte, etc.
- Os metadados de uma imagem digital podem conter o tamanho da imagem, resolução, intensidade da cor, data de criação da imagem, etc.
- Os metadados de um documento podem conter a data de criação do documento, data da última modificação, seu tamanho, autor, descrição, etc.
Comparação entre dados e meta-dados
S.Não | Dados | Metadados |
---|---|---|
1 | Os dados são um conjunto de informações. | Metadados são informações sobre dados. |
dois | Os dados podem (ou) não podem ser processados. | Metadados são sempre dados processados. |
Tipos de Metadados
A classificação dos metadados em vários tipos nos ajudará a entendê-los melhor. Esta classificação pode ser baseada em seu uso (ou) os usuários etc.
Vamos explorar os diferentes tipos de metadados abaixo:
# 1) Metadados de bastidores: Orienta os DBAs (ou) os usuários finais nos processos de extração, limpeza e carregamento.
# 2) Metadados da sala da frente: Orienta os usuários finais a trabalhar com ferramentas e relatórios de BI.
# 3) Metadados do processo: Isso armazena metadados do processo ETL, como o número de linhas carregadas, rejeitadas, processadas e o tempo necessário para carregar em um sistema DW, etc. Essas informações também podem ser acessíveis aos usuários finais.
Ao mesmo tempo, as estatísticas das tabelas de teste também são importantes para a equipe ETL. Esses metadados irão armazenar os dados do processo das tabelas de teste, como o número de linhas carregadas, rejeitadas, processadas e o tempo necessário para carregar em cada tabela de teste.
# 4) Linhagem de dados: Isso armazena a transformação lógica de cada elemento do sistema de origem para o elemento de destino DW.
# 5) Definições de negócios: O contexto das tabelas DW foi derivado das definições de negócios. Cada atributo em uma tabela está associado a uma definição de negócios. Portanto, eles devem ser armazenados como metadados (ou) qualquer outro documento para referência futura. Tanto os usuários finais quanto a equipe de ETL dependem dessas definições de negócios.
# 6) Definições técnicas: As definições técnicas são usadas exclusivamente na área de preparação de dados, mais do que as definições de negócios. O objetivo principal é reduzir a ambigüidade ao criar tabelas intermediárias e reutilizar quaisquer tabelas existentes. As definições técnicas armazenarão os detalhes de cada tabela temporária, como sua localização e estrutura.
Cada tabela intermediária é tecnicamente documentada aqui; se não for documentada, significa que a tabela intermediária não existe. Isso evita a recriação da mesma mesa de teste.
# 7) Metadados de negócios: Os dados serão armazenados em termos de negócios para o benefício dos usuários finais / analistas / gerentes / quaisquer usuários. Os metadados de negócios são proxy para os dados do sistema de origem, ou seja, nenhuma manipulação de dados será feita neles. Ele pode ser derivado de quaisquer documentos comerciais e regras comerciais.
# 8) Metadados técnicos: Isso armazenará dados técnicos, como atributos de tabelas, seus tipos de dados, tamanho, atributos de chave primária, atributos de chave estrangeira e quaisquer índices. Isso é mais estruturado quando comparado aos metadados de negócios.
Os metadados técnicos destinam-se principalmente à equipe de DW, como desenvolvedores / testadores / analistas / DBAs, para construir (ou) manter o sistema. Isso também é usado significativamente pelos administradores para monitorar as cargas de banco de dados e backups de dados, etc.
# 9) Metadados operacionais: Como sabemos, os dados no sistema DW são provenientes de muitos sistemas operacionais com diversos tipos de dados e campos. As extrações de DW transformam esses dados no tipo único e carregam todos esses dados no sistema.
Ao mesmo tempo, ele deve ser capaz de vincular os dados aos dados do sistema de origem. Os metadados que armazenam todas essas informações de fontes de dados operacionais são conhecidos como metadados operacionais.
# 10) Informações do sistema de origem:
melhor software de conversão de vídeo para mac
Você pode coletar os seguintes metadados de vários sistemas de origem:
- Banco de dados (ou) sistema de arquivos: Isso armazenará os nomes dos arquivos (ou) dos bancos de dados do sistema de origem.
- Especificações da tabela: Isso armazenará todos os detalhes sobre as tabelas, como nome da tabela, sua finalidade, tamanho, atributos, chaves primárias e chaves estrangeiras.
- Regras de tratamento de exceções: Isso armazenará diferentes métodos de recuperação do sistema em caso de falhas do sistema.
- Definições de negócios: Isso armazenará as definições de negócios para uma breve compreensão dos dados.
- Regras do negócio: Isso armazenará um conjunto de regras para cada tabela para entender seus dados e evitar inconsistências.
Os metadados do sistema de origem economizam muito tempo para a equipe DW durante a análise dos dados.
# 11) Metadados de trabalho ETL: Os metadados de trabalho ETL são muito importantes, pois armazenam os detalhes de todos os trabalhos a serem processados na programação, para carregar o sistema ETL.
Esses metadados armazenam as seguintes informações:
- Nome do trabalho: Nome do trabalho ETL.
- Objetivo do Trabalho: O objetivo de executar o trabalho.
- Tabelas / arquivos de origem: Ele fornece os nomes e a localização de todas as tabelas e arquivos dos quais os dados estão sendo obtidos por este trabalho ETL. Pode ter mais de um nome de arquivo de tabela (ou).
- Tabelas / arquivos de destino: Ele fornece os nomes e a localização de todas as tabelas e arquivos nos quais os dados estão sendo transformados por este trabalho ETL. Pode ter mais de um nome de arquivo de tabela (ou).
- Dados rejeitados: Ele fornece os nomes e a localização de todas as tabelas e arquivos dos quais os dados de origem pretendidos não foram carregados no destino.
- Pré-processos: Ele fornece os trabalhos (ou) nomes de script dos quais depende o trabalho atual. Isso significa que eles devem ser executados com sucesso antes de executar o trabalho atual.
- Pós-processos: Ele fornece os nomes dos trabalhos (ou) scripts que devem ser executados imediatamente após o trabalho atual para concluir o processo.
- Frequência: Ele fornece informações sobre a frequência com que o trabalho deve ser executado, ou seja, diariamente, semanalmente (ou) mensalmente.
# 12) Metadados de transformação: Os metadados de transformação armazenam todas as informações de construção relacionadas ao processo ETL. Cada manipulação de dados no processo ETL é conhecida como transformação de dados.
Qualquer conjunto de funções, procedimentos armazenados, cursores, variáveis e loops no processo ETL podem ser considerados como transformações. Mas essas transformações não podem ser documentadas separadamente como metadados.
Todo o processo ETL é construído com transformações de dados. Poucas transformações em ETL podem ser predefinidas e usadas no sistema DW. Os desenvolvedores de ETL gastam seu tempo construindo (ou) reprocessando todas as transformações de dados. Reutilizar as transformações predefinidas durante o desenvolvimento do processo ETL irá acelerar o trabalho.
Leia as transformações de dados abaixo que você pode encontrar no ETL:
o que é um caso de teste em teste de software com exemplo
- Extrações de dados de origem: Isso envolve transformações de dados para ler dados do sistema de origem, como uma consulta SQL Select (ou) FTP (ou) ler dados XML / mainframe.
- Geradores de chaves substitutos: O novo número de sequência que deve ser gerado para cada linha da tabela do banco de dados é armazenado como metadados.
- Pesquisas: As pesquisas podem ser formadas com todas as instruções IN, junções internas e junções externas. Eles são usados principalmente para manter as chaves substitutas de todas as respectivas tabelas de dimensão ao carregar um fato.
- Filtros: Filtros são recomendados para classificar os dados que devem ser extraídos, carregados e rejeitados no processo ETL. Filtrar os dados nos estágios iniciais do sistema ETL é uma boa prática. Os filtros são aplicados dependendo das regras de negócios (ou) restrições.
- Agregados: Dependendo do nível de granularidade dos dados, os metadados relacionados às funções agregadas podem ser usados, como soma, contagem, média, etc.
- Estratégias de atualização: Estas são as regras aplicadas a um registro durante a atualização dos dados. Se houver alguma modificação nos dados existentes, isso indicará se um registro deve ser adicionado, excluído (ou) atualizado.
- Carregador de destino: O carregador de destino armazenará os detalhes do banco de dados, nomes de tabelas e nomes de colunas nas quais os dados devem ser carregados por meio do processo ETL. Além disso, isso também armazenará os detalhes do utilitário de carregamento em massa, se houver, que é executado durante o carregamento de dados no sistema ETL.
Cada transformação pode ser nomeada de forma distinta com uma breve nota sobre seu propósito.
Alguns exemplos de convenções de nomenclatura são incluídos aqui para a lista de transformações acima.
SRC_ SEQ_ LKP_ FIL_ AGG_ UPD__ TRG_
Repositório de metadados em ETL
Um repositório de metadados é um local onde qualquer tipo de metadados é armazenado em um banco de dados local (ou) em um banco de dados virtual. Cada tipo de metadados, como metadados de negócios (ou) metadados técnicos, pode ser separado logicamente em um repositório.
Além dos dois tipos acima, o repositório também possui mais um componente denominado Navegador de informações.
O navegador de informações pode ser usado para realizar as tarefas abaixo:
- Interface da ferramenta de consulta: Isso fornece uma interface para as ferramentas de consulta para acessar os metadados DW.
- Faça uma busca detalhada para obter detalhes: Isso permite que o usuário analise os metadados para obter informações mais detalhadas. Por exemplo, no primeiro nível, o usuário pode obter uma definição da tabela de dados. Ao aprofundar, ele pode obter os atributos da tabela no próximo nível. Ao aprofundar mais os dados, ele pode obter os detalhes de cada atributo etc.
- Revise consultas e relatórios predefinidos: Isso permite ao usuário revisar consultas e relatórios predefinidos. Isso atua como uma referência para as consultas de quadro por conta própria com parâmetros adequados, etc.
Representação pictórica do Repositório de Metadados:
Como os metadados de armazenamento de dados podem ser gerenciados?
Pessoas, processos e ferramentas são as principais fontes para gerenciar metadados.
- As pessoas devem entender os metadados para um uso apropriado.
- O processo irá incorporar metadados em ferramentas (ou) repositório com o progresso do ciclo de vida do DW para uso futuro.
- Posteriormente, os metadados podem ser gerenciados por ferramentas.
Desafios para gerenciamento de metadados
Depois que os metadados são criados, você pode enfrentar os desafios abaixo ao integrar e gerenciar os metadados no sistema.
- Trazer vários formatos de metadados para um formato padrão pode exigir mais esforço se várias ferramentas estiverem sendo usadas no sistema DW, porque os metadados podem ser armazenados em planilhas, aplicativos (ou) bancos de dados.
- Os formatos de metadados não têm nenhum padrão estabelecido para todo o setor. Com essa falta de processo padronizado, é difícil passar metadados por vários níveis do sistema e ferramentas DW.
- Manter de forma consistente várias versões de metadados históricos é uma tarefa complexa.
O que é ETL orientado por metadados?
O ETL orientado por metadados estabelece uma camada para simplificar o processo de carregamento de dados em um sistema DW. Você pode decidir se deseja processar os dados no sistema (ou), não dependendo dos metadados. Portanto, você pode chamá-lo de ETL orientado por metadados.
Conclusão
A função significativa dos metadados na determinação do sucesso (ou) falha de um sistema DW foi explicada em detalhes neste tutorial.
Também exploramos o Significado, Papel, Exemplos, Tipos, Desafios dos Metadados em detalhes junto com a representação pictórica em questão.
Esperamos que esses tutoriais informativos desta Série de Data Warehouse tenham enriquecido seu conhecimento sobre Data Warehousing e conceitos relacionados !!!
Leitura feliz!!
=> Visite aqui para aprender a armazenar dados do zero.
Leitura recomendada
- Tutorial de teste de data warehouse com exemplos | Guia de teste ETL
- ETL Testing Tutorial de teste de data warehouse (um guia completo)
- Modelo de dados dimensionais em data warehouse - Tutorial com exemplos
- Tutorial do Data Mart - Tipos, Exemplos e Implementação do Data Mart
- O que é o processo ETL (Extract, Transform, Load) no Data Warehouse?
- As 10 melhores ferramentas de mapeamento de dados úteis no processo ETL [2021 LIST]
- Exemplos de mineração de dados: aplicações mais comuns de mineração de dados 2021
- Perguntas e respostas da entrevista de teste de ETL