what is data lake data warehouse vs data lake
Este tutorial explica tudo sobre o Data Lake, incluindo sua necessidade, definição, arquitetura, benefícios e diferenças entre o Data Lake e o Data Warehouse:
O termo ‘Data Lake’ é usado com bastante frequência no mundo de TI de hoje. Você já se perguntou o que é e de onde exatamente vem o termo?
Na era da tecnologia da informação, onde os dados são amplificados dia e noite de várias formas, o conceito de data lake torna-se certamente importante e útil.
Vamos explorar o que é um data lake e quais são seus benefícios, usos etc. em detalhes aqui.
O que você aprenderá:
- O que é um data lake e como funciona?
- Conclusão
O que é um data lake e como funciona?
Um data lake é um sistema ou repositório centralizado de dados que permite armazenar todos os seus dados estruturados, semiestruturados, não estruturados e binários em seu formato natural / nativo / bruto.
Os dados estruturados podem incluir tabelas de RDBMSs; dados semiestruturados incluem arquivos CSV, arquivos XML, logs, JSON, etc .; dados não estruturados podem incluir PDFs, documentos do Word, arquivos de texto, e-mails, etc .; e os dados binários podem incluir arquivos de áudio, vídeo e imagens.
Ele segue uma arquitetura simples para armazenamento de dados. Geralmente, os dados são armazenados na forma de arquivos ou blobs de objetos.
[imagem fonte ]
Com um data lake, você pode armazenar toda a sua empresa em um único lugar, sem a necessidade de primeiro estruturar os dados. Você pode executar diretamente os vários tipos de análises nele, incluindo aprendizado de máquina, análise em tempo real, movimentação de dados no local, movimentação de dados em tempo real, painéis e visualizações.
Ele mantém todos os dados na forma original e presume que a análise ocorrerá posteriormente, sob demanda.
Analogia do Data Lake
[imagem fonte ]
O termo Data Lake foi cunhado por James Dixon, o então CTO da Pentaho. Ele define o data mart (um subconjunto de um data warehouse) como semelhante a uma garrafa de água cheia de água destilada e limpa, embalada e estruturada para uso direto e fácil.
Por outro lado, é análogo a um corpo de água em sua forma natural. Os dados fluem dos fluxos (várias funções de negócios / sistemas de origem) para o lago. Os consumidores do data lake, ou seja, os usuários têm acesso ao lago para analisar, examinar, coletar amostras e mergulhar.
Assim como a água do lago atende a diferentes necessidades das pessoas, como pescar, passear de barco, fornecer água potável, etc., da mesma forma, a arquitetura do lago de dados atende a vários propósitos.
como abrir um arquivo torrent no windows
Um cientista de dados pode usá-lo para explorar os dados e criar uma hipótese. Ele oferece uma oportunidade para analistas de dados analisarem dados e descobrirem padrões. Ele fornece um modo para os usuários de negócios e partes interessadas explorarem os dados.
Também oferece uma oportunidade para analistas de relatórios projetarem relatórios e apresentá-los à empresa. Pelo contrário, o data warehouse tem dados empacotados para finalidades bem definidas, assim como uma garrafa de bisleri que pode ser usada apenas para beber água.
Mercado de Data Lake - Crescimento, Tendências e Previsões
O mercado de data lake é dividido com base em produto (solução ou serviço), implantação (local ou nuvem), setor de clientes (varejo, banco, serviços públicos, seguros, TI, saúde, telecomunicações, publicação, manufatura) e geográfico regiões.
De acordo com o relatório publicado pela Mordor Intelligence, abaixo está o panorama do mercado para data lake:
[imagem fonte ]
# 1) Resumo do mercado
O mercado de Data Lakes foi avaliado em US $ 3,74 bilhões em 2019 e deve chegar a US $ 17,60 bilhões em 2025, a uma CAGR (Taxa composta de crescimento anual) de 29,9% no período de projeção de 2020-2025.
Esses reservatórios de dados estão cada vez mais se tornando uma opção econômica para muitas organizações em relação a data warehouses. Em contraste com os data lakes, o data warehouse requer processamento adicional de dados antes de entrar no warehouse.
A despesa de gerenciamento de um data lake é menor quando comparada a um data warehouse por causa de muito processamento e de espaço necessário para criar o banco de dados para warehouses.
# 2) Jogadores Principais
Prevê-se que o mercado de Data Lake será um mercado consolidado, dominado pelos cinco principais participantes, como pode ser visto na imagem abaixo.
# 3) Principais tendências
- Espera-se que seu uso cresça consideravelmente no setor bancário. Os bancos estão adotando data lakes para fornecer análises em movimento. Além disso, está ajudando a dissolver muitos silos no setor bancário.
- Como há um grande aumento nos pagamentos digitais / uso de carteiras móveis em todo o mundo, o escopo para análise de big data e, portanto, a oportunidade para eles está aumentando.
- Prevê-se que a América do Norte terá uma alta adoção de data lakes. Um estudo feito pela Capgemini diz que mais de 60% das organizações financeiras nos EUA pensam que a análise de big data atua como um diferencial para os negócios e lhes dá uma vantagem competitiva. Mais de 90% das organizações acham que investir em projetos de big data aumenta as chances de sucesso no futuro.
- Eles são necessários para o uso de aplicativos de medidores inteligentes e, nos EUA, espera-se que cerca de 90 milhões de medidores inteligentes sejam instalados em 2021. Portanto, há uma alta demanda prevista para eles.
Por que o Data Lake é necessário?
O objetivo de um data lake é fornecer uma visão não processada dos dados (dados em sua forma mais pura).
Exemplos
Hoje em dia, muitas grandes empresas, incluindo Google, Amazon, Cloudera, Oracle, Microsoft e poucas outras, têm ofertas de data lake.
Muitas organizações estão usando serviços de armazenamento em nuvem, como Azure Data Lake ou Amazon S3. As empresas também estão usando um sistema de arquivos distribuído como o Apache Hadoop. O conceito de um data lake pessoal que permite gerenciar e compartilhar seus próprios big data também evoluiu.
Se falamos de usos industriais, então é um ajuste muito adequado para o domínio da saúde. Por causa do formato não estruturado de muitos dados na área de saúde ( Por exemplo, Notas médicas, dados clínicos, histórico de doenças do paciente, etc.) e a necessidade de insights em tempo real, um data lake é uma ótima opção em vez de data warehouse.
Oferece soluções flexíveis no setor da educação, bem como onde os dados são muito vastos e muito brutos.
No setor de transporte, principalmente na gestão da cadeia de suprimentos ou logística, ajuda a fazer previsões e obter benefícios de redução de custos.
As indústrias de aviação e energia elétrica também estão usando data lakes.
Um exemplo de sua implementação é GE Predix (desenvolvido pela General Electric), que é uma plataforma de data lake industrial que oferece fortes competências de governança de dados para criar, implantar e administrar aplicativos industriais que se conectam a ativos industriais, coletam e analisam dados e fornecem em tempo real insights para melhorar a infraestrutura e os processos industriais.
Diferença entre Data Warehouse vs. Data Lake
Freqüentemente, as pessoas acham difícil entender como um lago difere de um data warehouse. Eles também argumentam que é o mesmo que o data warehouse. Mas esta não é a realidade.
A única semelhança entre o data lake e o data warehouse é que ambos são repositórios de armazenamento de dados. Descanse, eles são diferentes. Eles têm diferentes casos de uso e propósitos.
As diferenças são esclarecidas a seguir:
Data Lake | Armazém de dados | |
---|---|---|
Analytics | Um data lake pode ser usado para aprendizado de máquina, criação de perfil de dados de descoberta de dados e análise preditiva. | Um data warehouse pode ser usado para Business Intelligence, visualizações e relatórios em lote. |
Dados | Um Data Lake manterá nele todos os dados brutos. Pode ser estruturado, não estruturado ou semiestruturado. Pode ser possível que alguns dos dados no data lake nunca sejam usados. | Um Data Warehouse incorpora apenas os dados que são processados e refinados, ou seja, dados estruturados que são necessários para relatar e resolver problemas específicos de negócios. |
Comercial | Geralmente, os usuários de um data lake são cientistas e desenvolvedores de dados. | Geralmente, os usuários do data warehouse são profissionais de negócios, usuários operacionais e analistas de negócios. |
Acessibilidade | O data lake é altamente acessível e fácil e rápido de atualizar porque não tem nenhuma estrutura. | No data warehouse, atualizar os dados é uma operação mais complicada e cara porque os data warehouses são estruturados por design. |
Esquema | Schema-on-write. Projetado antes da implementação do DW. | Esquema na leitura. Escrito no momento da análise. |
Arquitetura | Arquitetura plana | Arquitetura hierárquica |
Propósito | A finalidade dos dados brutos armazenados em data lakes não é fixa ou é indeterminada. Às vezes, os dados podem fluir para um data lake com algum uso futuro específico em mente ou apenas para ter os dados à mão. O data lake tem dados menos organizados e menos filtrados. | Os dados processados armazenados no Data warehouse têm uma finalidade específica e definida. Um DW organizou e filtrou dados. Conseqüentemente, requer menos espaço de armazenamento do que o data lake. |
Armazenar | Projetado para armazenamento de baixo custo. O hardware do data lake é muito diferente do hardware do data warehouse. Ele usa servidores prontos para uso combinados com armazenamento barato. Isso torna o data lake bastante econômico e altamente escalonável para terabytes e petabytes. Isso é feito para manter todos os dados em um data lake para que você possa voltar ao tempo a qualquer momento para fazer a análise. | Caro para grandes volumes de dados. O data warehouse tem armazenamento em disco caro para ter um alto desempenho. Portanto, para conservar o espaço, o modelo de dados é simplificado e apenas os dados realmente necessários para a tomada de decisões de negócios são mantidos no data warehouse. |
Suporte para tipos de dados | Um Data Lake suporta muito bem os tipos de dados não tradicionais como logs de servidor, dados de sensor, atividade de rede social, texto, imagens, multimídia, etc. Todos os dados são mantidos independentemente da fonte e da estrutura. | Geralmente, um data warehouse consiste em dados obtidos de sistemas transacionais. Ele não suporta muito bem os tipos de dados não tradicionais. Armazenar e consumir dados não tradicionais pode ser caro e difícil com o data warehouse. |
Segurança | A segurança dos data lakes está em um estágio de 'maturação', uma vez que este é um conceito relativamente novo do que o data warehouse. | A segurança dos data warehouses está em estágio de 'maturação'. |
Agilidade | Altamente ágil; configure e reconfigure conforme necessário. | Menos ágil; configuração fixa. |
Arquitetura Data Lake
Diagrama de arquitetura
Acima está o diagrama da arquitetura conceitual do data lake. Na parte esquerda, você pode ver que temos as fontes de dados que podem ser estruturadas, semiestruturadas ou não estruturadas.
como abrir um arquivo apk no android
Essas fontes de dados são combinadas em um armazenamento de dados brutos que usa os dados em sua forma bruta, ou seja, dados sem quaisquer transformações. Este é um armazenamento de baixo custo, permanente e escalonável.
Em seguida, temos sandboxes analíticas que podem ser usadas para descoberta de dados, análise exploratória de dados e modelagem preditiva. Basicamente, isso é usado por cientistas de dados para explorar dados, construir novas hipóteses e definir casos de uso.
Depois, há um mecanismo de processamento em lote que processa os dados brutos em um formato utilizável pelo consumidor, ou seja, em um formato estruturado que pode ser usado para relatar aos usuários finais.
Então, temos um mecanismo de processamento em tempo real que é levado em streaming de dados e os transforma.
Características principais do Data Lake
Para ser classificado como Data Lake, um repositório de big data deve possuir os três atributos a seguir:
# 1) Um único repositório comum de dados geralmente armazenado em um Sistema de Arquivos Distribuídos (DFS).
Os data lakes do Hadoop mantêm os dados em sua forma nativa e capturam alterações nos dados e na semântica relativa durante o ciclo de vida dos dados. Essa abordagem é particularmente benéfica para verificações de conformidade e auditorias internas.
Este é um aprimoramento acima do Enterprise Data Warehouse convencional no qual quando os dados passam por transformações, agregações e modificações, é difícil colocá-los como um todo quando necessário, e as empresas se esforçam para descobrir a fonte / origem dos dados.
# 2) Incorpora recursos de planejamento e agendamento de trabalho (por exemplo, por meio de qualquer ferramenta de agendamento como YARN, etc.).
A execução da carga de trabalho é uma necessidade essencial para o Hadoop empresarial e o YARN oferece gerenciamento de recursos e uma plataforma central para fornecer processos constantes, segurança e ferramentas de governança de dados em todos os clusters do Hadoop, garantindo que os fluxos de trabalho analíticos possuam o nível necessário de acesso a dados e poder de computação.
# 3) Compreende o conjunto de utilitários e funções necessárias para consumir, processar ou trabalhar com os dados.
A acessibilidade fácil e rápida para os usuários é uma das principais características de um data lake, pois as organizações armazenam os dados em sua forma nativa ou pura.
Seja qual for a forma dos dados, ou seja, estruturados, não estruturados ou semiestruturados, eles são inseridos como estão no data lake. Ele permite que os proprietários de dados combinem dados de clientes, fornecedores e operações, eliminando quaisquer barreiras técnicas ou políticas para o compartilhamento de dados.
Benefícios
[imagem fonte ]
- Versátil : Competente o suficiente para armazenar todos os tipos de dados estruturados / não estruturados, desde dados de CRM a atividades de rede social.
- Mais flexibilidade de esquema : Não necessita de planejamento ou conhecimento prévio de análise de dados. Ele armazena todos os dados em sua forma original e presume que a análise acontecerá posteriormente, sob demanda. Isso é muito útil para OLAP. Por exemplo, o data lake do Hadoop permite que você fique sem esquemas, em que é possível desacoplar o esquema dos dados.
- Análise de decisão em tempo real : Eles aproveitam o benefício de uma grande quantidade de dados consistentes e algoritmos de aprendizado profundo para obter análises de decisão em tempo real. Capaz de obter valor de tipos de dados ilimitados.
- Escalável: Eles são muito mais escaláveis do que os data warehouses tradicionais e também são menos caros.
- Análise avançada / compatibilidade com SQL e outras linguagens: Com os data lakes, existem várias maneiras de consultar os dados. Ao contrário dos armazéns de dados tradicionais que suportam apenas SQL para análises simples, eles oferecem muitas outras opções e suporte de linguagem para analisar dados. Eles também são compatíveis com ferramentas de aprendizado de máquina como Spark MLlib.
- Democratize Data: Acesso democratizado aos dados por meio de uma visão única e integrada dos dados em toda a organização, utilizando uma plataforma de gerenciamento de dados eficaz. Isso garante a disponibilidade geral dos dados.
- Melhor qualidade de dados: No geral, você obtém melhor qualidade de dados com data lakes por meio de benefícios tecnológicos, como armazenamento de dados em formato nativo, escalabilidade, versatilidade, flexibilidade de esquema, suporte a SQL e outras linguagens e análises avançadas.
Desafios e riscos
Os lagos de dados oferecem muitas vantagens. Mas sim, também existem alguns desafios e riscos associados a eles que uma organização precisa abordar com cuidado.
Eles estão:
- Se não forem projetados corretamente, eles podem se transformar em pântanos de dados. Às vezes, as organizações simplesmente continuam despejando dados ilimitados nesses lagos, sem nenhuma estratégia e propósito em mente.
- Às vezes, os analistas que desejam usar os dados não têm conhecimento sobre como fazê-lo, pois é bastante desafiador fazer mineração em data lakes. Assim, eles perdem relevância e impulso após algum tempo. As organizações precisam trabalhar para remover essa barreira para os analistas.
- Como temos muitos dados desorganizados em data lakes, eles não são novos ou atualizados o suficiente para serem usados na produção. Portanto, os dados nesses lagos permanecem no modo piloto e nunca são colocados em produção.
- Dados não estruturados podem levar a dados inutilizáveis.
- Às vezes, as organizações percebem que não estão causando um impacto significativo nos negócios no que diz respeito aos investimentos feitos. Isso requer uma mudança de mentalidade. Para que os impactos ocorram, as empresas precisam encorajar os gerentes e líderes a tomar decisões com base nas análises derivadas desses reservatórios de dados.
- Segurança e controle de acesso também são um dos riscos quando você está trabalhando com eles. Alguns dos dados que podem ter privacidade e regulamentos exigidos são colocados em lagos de dados sem qualquer supervisão.
Implementação
Em uma empresa, é bastante sensato fazer a implementação do data lake de maneira ágil.
Ou seja, para implementar primeiro um Data Lake MVP, ele é testado pelos usuários em relação à qualidade, facilidade de acesso, armazenamento e recursos analíticos, recebe feedbacks e, em seguida, adiciona os requisitos e recursos complexos para agregar valor ao Lake.
Geralmente, uma organização passa pelos quatro estágios básicos de implementação abaixo:
[imagem fonte ]
Estágio 1:
O Data Lake Básico: Nesse estágio, a equipe estabelece a arquitetura básica, a tecnologia (baseada em nuvem ou legada) e as práticas de segurança e governança para o data lake. É capaz de armazenar todos os dados brutos provenientes de várias fontes corporativas e combinar os dados internos e externos para fornecer informações enriquecidas.
Etapa 2:
O Sandbox: Aprimoramento da capacidade analítica: Nesse estágio, os cientistas de dados acessam o reservatório de dados para executar experimentos preliminares para utilizar dados brutos e projetar modelos analíticos para atender às necessidades de negócios.
Etapa 3:
teste de perguntas e respostas da entrevista para experientes
Data Warehouses e colaboração de Data Lake: Nesta fase, a organização começa a usar o data lake em sinergia com os data warehouses existentes. Os dados de baixa prioridade são enviados a eles para que o limite de armazenamento dos data warehouses não seja excedido.
Ele apresenta uma perspectiva para produzir insights de dados frios ou consultá-los para descobrir informações que não são indexadas por bancos de dados convencionais.
Etapa 4:
Adoção de ponta a ponta do Data Lake: Este é o último estágio de aquisição de maturidade em que se transforma em um elemento-chave da arquitetura de dados da organização e efetivamente direciona a operação de busca. A essa altura, o data lake teria substituído o EDW e eles se tornariam a única fonte de todos os dados corporativos.
Uma organização pode fazer o seguinte por meio do data lake:
- Crie soluções complexas de modelagem e análise de dados para diferentes necessidades de negócios.
- Projete painéis interativos que consolidam as compreensões do data lake, além de vários aplicativos e fontes de dados.
- Implementar análises avançadas ou programas de robótica, uma vez que lida com operações computacionais.
A esta altura, ele está tendo segurança forte e também medidas de governança.
Fornecedores de Data Lake
Existem diferentes fornecedores que fornecem ferramentas de data lake na indústria.
[imagem fonte ]
Se olharmos para as grandes empresas:
- Informática está fornecendo uma ferramenta de data lake inteligente. BDM (Big Data Management) 10.2.2 é a última versão disponível.
- Existe um vendedor chamado observador quem também está fornecendo a ferramenta.
- A empresa Talend que é popular por suas ferramentas ETL, também fornece a ferramenta Data Lake.
- Então, temos uma ferramenta de código aberto chamada Kylo de Teradata companhia. A equipe chamada 'Think Big' da empresa Teradata desenvolveu esta ferramenta.
- A empresa Dados Cask Inc também fornece esses serviços.
- A partir de Microsoft , você pode encontrar Azure data lake disponíveis na indústria.
- Hvr-software também fornece soluções de consolidação de data lake.
- Dados do Podium, uma empresa Qlik está fornecendo produtos de ferramenta, como pipelines de data lake, data lake de várias zonas.
- Floco de neve também tem um produto data lake.
- Zaloni é uma empresa de data lake que lida com grandes volumes de dados usando Big Data.
Portanto, todos esses são provedores de serviços populares, bem como fornecedores de tais ferramentas.
Se você está procurando praticar e desenvolver seu conhecimento sobre lagos de dados, então você pode ir para Informatica ou Kylo. Se você está procurando um serviço baseado em nuvem, pode optar por Looker, Informatica e Talend. Esses três fornecedores estão fornecendo lagos de dados em nuvem da AWS. Você também pode obter uma avaliação gratuita de 1 mês do Kylo.
Conclusão
Neste tutorial, discutimos o conceito de data lake em detalhes. Analisamos a ideia básica por trás do data lake, sua arquitetura, principais características, benefícios, junto com seus exemplos, casos de uso, etc.
Também vimos como um data lake é diferente do data warehouse. Também cobrimos os principais fornecedores de serviços relacionados.
Leitura feliz!!
Leitura recomendada
- Tutorial de teste de data warehouse com exemplos | Guia de teste ETL
- Dez principais ferramentas de teste e validação de dados estruturados para SEO
- Mineração de dados: processo, técnicas e questões importantes na análise de dados
- Tutorial do Data Mart - Tipos, exemplos e implementação do Data Mart
- As 10 principais ferramentas populares de data warehouse e tecnologias de teste
- Modelo de dados dimensionais em data warehouse - tutorial com exemplos
- Mais de 10 melhores ferramentas de coleta de dados com estratégias de coleta de dados
- Recurso de pool de dados no IBM Rational Quality Manager para gerenciamento de dados de teste