big data tutorial beginners what is big data
Este tutorial explica tudo sobre os conceitos básicos de Big Data. O tutorial inclui benefícios, desafios, tecnologias e ferramentas junto com aplicativos de Big Data:
Neste mundo digital com avanços tecnológicos, trocamos grandes quantidades de dados diariamente como em Terabytes ou Petabyte .
Se estamos trocando essa quantidade de dados diariamente, precisamos mantê-los também e armazená-los em algum lugar. A solução para lidar com grandes volumes de dados com alta velocidade e variedade diferente é Big Data.
Ele pode lidar com dados complexos provenientes de várias fontes, como diferentes bancos de dados, sites, widgets, etc. Além disso, pode vincular e combinar os dados vindos de diferentes fontes. Na verdade, oferece acesso mais rápido aos dados ( Por exemplo, mídia social).
Lista de tutoriais desta série de Big Data
editor atom vs código de estúdio visual
Tutorial # 1: O que é Big Data? [Este tutorial]
Tutorial # 2: O que é Hadoop? Tutorial do Apache Hadoop para iniciantes
Tutorial nº 3: Hadoop HDFS - Hadoop Distributed File System
Tutorial nº 4: Arquitetura Hadoop e guia de comandos HDFS
Tutorial # 5: Tutorial do Hadoop MapReduce com exemplos | O que é MapReduce?
Tutorial # 6: Tutorial do Apache Hadoop YARN para iniciantes | O que é YARN?
Tutorial nº 7: Tutorial de teste abrangente do Hadoop | Guia de teste de Big Data
O que você aprenderá:
O que é Big Data?
A palavra Huge não é suficiente para explicar BigData, certas características classificam os dados em BigData.
Temos três características principais do BigData e, se algum dado satisfizer essas características, será tratado como BigData. eu t é a combinação dos três V mencionados abaixo:
- Volume
- Velocidade
- Variedade
Volume : Os dados devem ser de grande volume. O Big Data tem a solução para manter uma grande quantidade de dados em Terabyte ou Petabyte. Podemos realizar operações CRUD (Criar, Ler, Atualizar e Excluir) no BigData de maneira fácil e eficaz.
Velocidade : É responsável por um acesso mais rápido aos dados. Por exemplo, hoje em dia a mídia social precisa de uma troca rápida de dados em uma fração de tempo e o BigData é a melhor solução para isso. Portanto, a velocidade é outra característica e é a velocidade de processamento dos dados.
Variedade : Nas redes sociais, lidamos com dados não estruturados, como gravações de áudio ou vídeo, imagens, etc. Além disso, vários setores, como o domínio bancário, precisam de dados estruturados e semiestruturados. BigData é a solução para manter os dois tipos de dados em um só lugar.
Variedade significa diferentes tipos de dados, como dados estruturados / não estruturados, provenientes de várias fontes.
Dados Estruturados : Os Dados que possuem uma estrutura própria ou que podem ser facilmente armazenados de forma tabular em qualquer Banco de Dados Relacional como Oracle, SQL Server ou MySQL são conhecidos como Dados Estruturados. Podemos processá-lo ou analisá-lo com facilidade e eficiência.
Um exemplo de Dados Estruturados são os dados armazenados em um Banco de Dados Relacional que podem ser gerenciados usando SQL (Structured Query Language). Por exemplo, Os dados do funcionário (nome, ID, designação e salário) podem ser armazenados em um formato tabular.
Em um banco de dados tradicional, podemos realizar operações ou processar dados não estruturados ou semiestruturados somente depois de formatados ou ajustados ao banco de dados relacional. Exemplos de dados estruturados são ERP, CRM, etc.
Dados semiestruturados: Dados semiestruturados são os dados que não estão totalmente formatados. Não é armazenado em tabelas de dados ou qualquer banco de dados. Mesmo assim, podemos prepará-lo e processá-lo facilmente, pois esses dados contêm tags ou valores separados por vírgula, etc. Exemplo de dados semiestruturados são arquivos XML, arquivos CSV, etc.
Dados não estruturados: Dados não estruturados são os dados que não possuem estrutura. Pode ser em qualquer formato, não existe um modelo de dados pré-definido. Não podemos armazená-lo em bancos de dados tradicionais. É complexo pesquisar e processar.
Além disso, o volume de dados não estruturados é muito alto. Exemplo de dados não estruturados é o corpo do e-mail, áudio, vídeo, imagens, documentos obtidos, etc.
Desafios de bancos de dados tradicionais
- O banco de dados tradicional não suporta uma variedade de dados, ou seja, não é capaz de lidar com dados não estruturados e semiestruturados.
- Um banco de dados tradicional é lento ao lidar com uma grande quantidade de dados.
- Em bancos de dados tradicionais, o processamento ou análise de uma grande quantidade de dados é muito difícil.
- Um banco de dados tradicional é capaz de armazenar dados em terabytes ou petabytes.
- Um banco de dados tradicional não pode lidar com dados históricos e relatórios.
- Depois de um certo tempo, é necessária a limpeza dos dados do banco de dados.
- O custo para manter uma grande quantidade de dados é muito alto com um banco de dados tradicional.
- A precisão dos dados é menor no banco de dados tradicional, pois os dados históricos completos não são mantidos nele.
Big DataBenefícios sobre o banco de dados tradicional
- Big Data é responsável por manipular, gerenciar e processar diferentes tipos de dados como estruturados, semiestruturados e não estruturados.
- É econômico em termos de manutenção de uma grande quantidade de dados. Ele funciona em um sistema de banco de dados distribuído.
- Podemos salvar grandes quantidades de dados por um longo tempo usando técnicas de BigData. Portanto, é fácil lidar com dados históricos e gerar relatórios precisos.
- A velocidade de processamento de dados é muito rápida e, portanto, a mídia social está usando técnicas de Big Data.
- A precisão dos dados é uma grande vantagem do Big Data.
- Ele permite que os usuários tomem decisões eficientes para seus negócios com base em dados atuais e históricos.
- Tratamento de erros, controle de versão e experiência do cliente são muito eficazes no BigData.
Leitura sugerida => Big Data vs Big Data Analytics vs Data Science
Desafios e riscos em BigData
Desafios:
- Um dos maiores desafios do Big Data é gerenciar grandes quantidades de dados. Hoje em dia, os dados chegam a um sistema de várias fontes com variedade. Portanto, é um desafio muito grande para as empresas gerenciá-lo adequadamente. Por exemplo, para gerar um relatório que contém os dados dos últimos 20 anos, é necessário salvar e manter os dados dos últimos 20 anos de um sistema. Para fornecer um relatório preciso, é necessário colocar apenas os dados relevantes no sistema. Não deve conter dados irrelevantes ou desnecessários, caso contrário, manter essa quantidade de dados será um grande desafio para as empresas.
- Outro desafio dessa tecnologia é a sincronização de vários tipos de dados. Como todos sabemos, o Big Data suporta dados estruturados, não estruturados e semiestruturados vindos de diferentes fontes, sincronizá-los e obter a consistência dos dados é muito difícil.
- O próximo desafio que as empresas enfrentam é a lacuna de especialistas que podem ajudar e implementar os problemas que enfrentam no sistema. Existe uma grande lacuna de talentos neste campo.
- Lidar com o aspecto de conformidade é caro.
- A coleta de dados, agregação, armazenamento, análise e relatórios de BigData têm um custo enorme. A organização deve ser capaz de gerenciar todos esses custos.
Riscos:
c ++ caractere para string
- Ele pode lidar com uma variedade de dados, mas se as empresas não puderem entender os requisitos adequadamente e controlar a fonte dos dados, ele fornecerá resultados falhos. Como resultado, será necessário muito tempo e dinheiro para investigar e corrigir os resultados.
- A segurança dos dados é outro risco com o BigData. Com um grande volume de dados, há maiores chances de alguém roubá-los. Os hackers de dados podem roubar e vender informações importantes (incluindo dados históricos) da empresa.
- Além disso, a privacidade de dados é outro risco para BigData. Se quisermos proteger os dados pessoais e confidenciais de hackers, eles devem ser protegidos e devem ser aprovados por todas as políticas de privacidade.
Tecnologias de Big Data
A seguir estão as tecnologias que podem ser usadas para gerenciar Big Data:
- Apache Hadoop
- Microsoft HDInsight
- Sem SQL
- Colmeia
- Sqoop
- BigData no Excel
Uma descrição detalhada dessas tecnologias será abordada em nossos próximos tutoriais.
Ferramentas para usar conceitos de Big Data
A seguir estão listadas as ferramentas de código aberto que podem ajudar a usar os conceitos de Big Data:
# 1) Apache Hadoop
# 2) Lumify
# 3) Apache Storm
# 4) Apache Samoa
# 5) Elasticsearch
# 6) MongoDB
# 7) BigData do sistema HPCC
Aplicações de Big Data
A seguir estão os domínios em que é usado:
- Bancário
- Mídia e entretenimento
- Prestadores de cuidados de saúde
- Seguro
- Educação
- Retalho
- Manufatura
- Governo
BigData e data warehouse
Data Warehouse é um conceito básico que precisamos entender antes de discutir o Hadoop ou o teste de BigData.
Vamos entender o Data Warehouse de um exemplo em tempo real. Por exemplo , existe uma empresa que estabeleceu filiais em três países diferentes, vamos assumir uma filial na Índia, Austrália e Japão.
Em cada filial, todos os dados do cliente são armazenados no Banco de Dados Local. Esses bancos de dados locais podem ser RDBMSs clássicos normais como Oracle ou MySQL ou SQL Server etc. e todos os dados do cliente serão armazenados neles diariamente.
Agora, a cada trimestre, semestral ou anual, a organização deseja analisar esses dados para o desenvolvimento de negócios. Para fazer o mesmo, a organização irá coletar todos esses dados de várias fontes e, em seguida, colocá-los juntos em um só lugar e este lugar é chamado 'Armazém de dados'.
Data Warehouse é um tipo de banco de dados que contém todos os dados extraídos de várias fontes ou vários tipos de banco de dados através do “ETL” (qual é o É xtract, T ransformar e eu oad) processo. Assim que os dados estiverem prontos no Data Warehouse, podemos usá-los para fins analíticos.
Assim, para análise, podemos gerar relatórios a partir dos dados disponíveis no Data Warehouse. Vários gráficos e relatórios podem ser gerados usando ferramentas de Business Intelligence.
Exigimos Data Warehouse para fins analíticos para fazer crescer os negócios e tomar decisões adequadas para as organizações.
como converter um char para int c ++
Três coisas estão acontecendo neste processo: primeiro, extraímos os dados de várias fontes e os colocamos em um único local que é o Data Warehouse.
Aqui usamos o processo “ETL”, portanto, ao carregar os dados de várias fontes para um lugar, vamos aplicá-lo nas raízes de transformação e, em seguida, podemos usar vários tipos de ferramentas ETL aqui.
Uma vez que os dados estejam prontos para o Data Warehouse, podemos gerar vários relatórios para analisar os dados de negócios usando ferramentas de Business Intelligence (BI) ou também chamamos de Ferramentas de Relatórios. As ferramentas como Tableau ou Cognos podem ser usadas para gerar os Relatórios e DashBoards para analisar os dados de negócios.
OLTP E OLAP
Vamos entender o que é OLTP e o que é OLAP?
Os bancos de dados mantidos localmente e usados para fins transacionais são chamados OLTP, ou seja, processamento de transações online. As transações do dia a dia serão armazenadas aqui e atualizadas imediatamente e é por isso que as chamamos de Sistema OLTP.
Aqui usamos Bancos de Dados Tradicionais, temos múltiplas tabelas e existem relacionamentos, portanto tudo é planejado sistematicamente conforme o banco de dados. Não estamos usando esses dados para fins analíticos. Aqui, podemos usar bancos de dados RDMBS clássicos como Oracle, MySQL, SQL Server, etc.
Quando chegamos à parte do Data Warehouse, usamos Teradata ou Hadoop Systems, que também são um tipo de banco de dados, mas os dados em um DataWarehouse são geralmente utilizados para fins analíticos e são chamados OLAP ou Processamento analítico online.
Aqui, os dados podem ser atualizados em uma base trimestral, semestral ou anual. Às vezes, os dados também são atualizados 'Offerly', onde Offerly significa que os dados são atualizados e buscados para análise por requisitos do cliente.
Além disso, os dados para análise não são atualizados diariamente porque obteremos os dados de várias fontes, em uma base programada e podemos executar esta tarefa ETL. É assim que funciona o Sistema de processamento analítico online.
Mais uma vez, as Ferramentas de BI ou Ferramentas de Relatório podem gerar relatórios, bem como Painéis, e com base nisso, os executivos tomarão as decisões para melhorar seus negócios.
Onde BigData entra em cena?
BigData são os dados que estão além da capacidade de armazenamento e processamento de bancos de dados convencionais e estão no formato estruturado e não estruturado, portanto, não podem ser manipulados por sistemas RDBMS locais.
Este tipo de dados será gerado em TeraBytes (TB) ou PetaBytes (PB) ou além e está crescendo rapidamente hoje em dia. Existem várias fontes para obter este tipo de dados, como Facebook, WhatsApp (que estão relacionados com Redes Sociais); Amazon, Flipkart relacionado ao E-Commerce; Gmail, Yahoo, Rediff relacionados a e-mails e Google e outros motores de busca. Também obtemos bigdata de celulares como dados de SMS, gravação de chamadas, registros de chamadas, etc.
Conclusão
Big data é a solução para lidar com grandes quantidades de dados com eficiência e segurança. É responsável por manter os dados históricos também. Existem muitas vantagens desta tecnologia, e é por isso que toda empresa deseja mudar para o Big Data
Autor: Vaishali Tarey, líder técnico da Syntel
Leitura recomendada
- Tutorial do Data Mart - Tipos, Exemplos e Implementação do Data Mart
- Dez principais ferramentas de design de banco de dados para construir modelos de dados complexos
- 20+ Tutorial do MongoDB para iniciantes: Curso gratuito do MongoDB
- O que é um data lake | Data Warehouse vs Data Lake
- Dez principais ferramentas de teste e validação de dados estruturados para SEO
- Modelo de dados dimensionais em data warehouse - Tutorial com exemplos
- Mineração de dados: processo, técnicas e questões importantes na análise de dados
- Como realizar testes orientados a dados no SoapUI Pro - Tutorial # 14 do SoapUI