top 29 data engineer interview questions
Lista das perguntas e respostas mais frequentes da entrevista do Data Engineer para ajudá-lo a se preparar para a próxima entrevista:
Hoje, a engenharia de dados é o campo mais procurado após o desenvolvimento de software e se tornou uma das opções de trabalho de crescimento mais rápido no mundo. Os entrevistadores querem os melhores engenheiros de dados para sua equipe e é por isso que eles tendem a entrevistar os candidatos exaustivamente. Eles procuram por certas habilidades e conhecimentos. Portanto, você deve estar preparado para atender às expectativas deles.
O que você aprenderá:
- Responsabilidades de um engenheiro de dados
- Habilidades de um engenheiro de dados
- Perguntas frequentes da entrevista com engenheiro de dados
- Conclusão
Responsabilidades de um engenheiro de dados
As responsabilidades incluem:
- Para tratar e supervisionar os dados dentro da empresa.
- Manter e gerenciar o sistema de origem dos dados e as áreas de preparação.
- Simplifique a limpeza de dados junto com a subsequente construção e melhoria da reduplicação de dados.
- Disponibilize e execute a transformação de dados e o processo ETL.
- Extração e construção de consulta de dados ad-hoc.
Habilidades de um engenheiro de dados
Com as qualificações, você também precisa de certas habilidades. Ambos são cruciais quando você está se preparando para o cargo de engenheiro de dados. Aqui, listamos as 5 principais habilidades, sem uma ordem específica, de que você precisará para se tornar um engenheiro de dados de sucesso.
- Habilidades em visualização de dados.
- Python e SQL.
- Conhecimento de modelagem de dados para Big Data e Data Warehousing
- Matemática
- Know-how em ETL
- Experiência espacial de Big Data
Portanto, você deve trabalhar para melhorar essas habilidades antes de começar a se preparar para a entrevista. E quando você tiver aperfeiçoado suas habilidades, aqui estão algumas perguntas da entrevista que você pode preparar para que os entrevistadores notem e contratem você também.
Perguntas frequentes da entrevista com engenheiro de dados
Perguntas gerais da entrevista
P # 1) Por que você estudou engenharia de dados?
Responda: Esta questão tem como objetivo aprender sobre sua formação, experiência profissional e histórico. Pode ter sido uma escolha natural na continuação de seu curso de Sistemas de Informação ou Ciência da Computação. Ou talvez você tenha trabalhado em um campo semelhante, ou pode estar fazendo a transição de uma área de trabalho totalmente diferente.
Seja qual for a sua história, não recue ou se afaste. E enquanto você compartilha, continue destacando as habilidades que aprendeu ao longo do caminho e o excelente trabalho que realizou.
No entanto, não comece a contar histórias. Comece com sua formação acadêmica um pouco e depois alcance a parte em que você sabia que queria ser um engenheiro de dados. E então prossiga como você chegou aqui.
P # 2) Qual é a coisa mais difícil de ser um engenheiro de dados para você?
Responda: Você deve responder a esta pergunta honestamente. Nem todos os aspectos de todos os trabalhos são fáceis e seu entrevistador sabe disso. O objetivo desta pergunta não é identificar sua fraqueza, mas saber como você trabalha com as coisas com as quais acha difícil lidar.
Você pode dizer algo como: “Como engenheiro de dados, acho difícil concluir a solicitação de todos os departamentos em uma empresa onde a maioria deles costuma apresentar demandas conflitantes. Portanto, muitas vezes acho um desafio equilibrá-los de acordo.
Mas me ofereceu uma visão valiosa sobre o funcionamento dos departamentos e o papel que eles desempenham na estrutura geral da empresa. ” E este é apenas um exemplo. Você pode e deve colocar seu ponto de vista.
P # 3) Conte-nos um incidente em que você deveria reunir dados de várias fontes, mas enfrentou problemas inesperados e como você resolveu isso?
Responda: Esta pergunta é uma oportunidade para você demonstrar suas habilidades de resolução de problemas e como você se adapta às mudanças repentinas do plano. A questão pode ser abordada de forma geral ou específica com o contexto da engenharia de dados. Se você não passou por essa experiência, pode dar uma resposta hipotética.
Aqui está um exemplo de resposta: “Na minha empresa de franquia anterior, eu e minha equipe deveríamos coletar dados de vários locais e sistemas. Mas uma das franquias mudou seu sistema sem nos avisar com antecedência. Isso resultou em um punhado de problemas para coleta e processamento de dados.
Para resolver isso, primeiro tivemos que encontrar uma solução rápida de curto prazo para colocar os dados essenciais no sistema da empresa. E depois disso, desenvolvemos uma solução de longo prazo para evitar que esses problemas aconteçam novamente. ”
P # 4) Qual a diferença entre o trabalho de um engenheiro de dados e o de um arquiteto de dados?
Responda: Esta pergunta visa verificar se você entende que existem diferenças dentro da equipe de um data warehouse. Você não pode errar com a resposta. As responsabilidades de ambos se sobrepõem ou variam dependendo das necessidades do departamento de manutenção de banco de dados ou da empresa.
Você pode dizer que “de acordo com minha experiência, a diferença entre as funções de um engenheiro de dados e de um arquiteto de dados varia de empresa para empresa. Embora trabalhem muito próximos, existem diferenças em suas responsabilidades gerais.
Gerenciar os servidores e construir a arquitetura do sistema de dados de uma empresa é responsabilidade de um arquiteto de dados. E o trabalho de um engenheiro de dados é testar e manter essa arquitetura. Junto com isso, nós, engenheiros de dados, garantimos que os dados disponibilizados aos analistas sejam de alta qualidade e confiáveis. ”
Perguntas técnicas da entrevista
P # 5) Quais são os quatro V do Big Data?
(imagem fonte )
Responda:
Os quatro Vs do Big Data são:
- O primeiro V é Velocidade que se refere à taxa na qual o Big Data está sendo gerado ao longo do tempo. Portanto, pode ser considerado como uma análise de dados.
- O segundo V é o Variedade de várias formas de Big Data, seja em imagens, arquivos de log, arquivos de mídia e gravações de voz.
- O terceiro V é o Volume dos dados. Pode ser no número de usuários, no número de tabelas, no tamanho dos dados ou no número de registros.
- O quarto V é Veracidade relacionadas à incerteza ou certeza dos dados. Em outros termos, ele decide o quanto você pode ter certeza sobre a precisão dos dados.
P # 6) Como os dados estruturados são diferentes dos dados não estruturados?
Resposta: A tabela abaixo explica as diferenças:
Dados Estruturados | Dados Não Estruturados | |
---|---|---|
7) | Os dados agregados estão contidos em uma única dimensão. | Os dados são divididos em diferentes tabelas de dimensão. |
1) | Ele pode ser armazenado em MS Access, Oracle, SQL Server e outros sistemas de banco de dados tradicionais semelhantes. | Não pode ser armazenado em um sistema de banco de dados tradicional. |
2) | Ele pode ser armazenado em diferentes colunas e linhas. | Não pode ser armazenado em linhas e colunas. |
3) | Um exemplo de dados estruturados são as transações de aplicativos online. | Exemplos de dados não estruturados são Tweets, pesquisas do Google, curtidas no Facebook, etc. |
4) | Ele pode ser facilmente definido dentro do modelo de dados. | Não pode ser definido de acordo com o modelo de dados. |
5) | Ele vem com um tamanho e conteúdo fixos. | Ele vem em vários tamanhos e conteúdos. |
P # 7) Com quais ferramentas ETL você está familiarizado?
Responda: Cite todas as ferramentas ETL com as quais você trabalhou. Você pode dizer: “Trabalhei com gerenciamento de dados SAS, IBM Infosphere e SAP Data Services. Mas o meu preferido é o PowerCenter da Informatica. É eficiente, tem uma taxa de desempenho extremamente alta e é flexível. Resumindo, ele possui todas as propriedades importantes de uma boa ferramenta ETL.
Eles executam operações de dados de negócios sem problemas e garantem o acesso aos dados, mesmo quando há mudanças ocorrendo nos negócios ou em sua estrutura. ” Certifique-se de falar apenas sobre aqueles com quem você trabalhou e aqueles com quem você gosta de trabalhar. Ou pode prejudicar sua entrevista mais tarde.
P # 8) Conte-nos sobre os esquemas de design de modelagem de dados.
Responda: A modelagem de dados vem com dois tipos de esquemas de design.
Eles são explicados da seguinte forma:
- O primeiro é o Calendário de estrelas , que é dividido em duas partes - a tabela de fatos e a tabela de dimensões. Aqui, ambas as tabelas estão conectadas. O esquema Star é o estilo de esquema de data mart mais simples e também é mais amplamente utilizado. Tem esse nome porque sua estrutura se assemelha a uma estrela.
- O segundo é o Esquema de floco de neve que é a extensão do esquema em estrela. Ele adiciona dimensões adicionais e é chamado de floco de neve porque sua estrutura se assemelha à de um floco de neve.
P # 9) Qual é a diferença entre o esquema Star e o esquema Snowflake?
(imagem fonte )
Resposta: A tabela abaixo explica as diferenças:
Star Schedule | Esquema de Floco de Neve | |
---|---|---|
1) | A tabela de dimensão contém as hierarquias para as dimensões. | Existem tabelas separadas para hierarquias. |
2) | Aqui, as tabelas de dimensão circundam uma tabela de fatos. | As tabelas de dimensão circundam uma tabela de fatos e, em seguida, são circundadas por tabelas de dimensão. |
3) | Uma tabela de fatos e qualquer tabela de dimensão são conectadas por apenas uma única junção. | Para buscar os dados, são necessárias muitas junções. |
4) | Ele vem com um design de banco de dados simples. | Ele tem um design de banco de dados complexo. |
5) | Funciona bem mesmo com consultas e estruturas de dados desnormalizadas. | Funciona apenas com a estrutura de dados normalizada. |
6) | Redundância de dados - alta. | Redundância de dados - muito baixa. |
8) | Processamento de cubos mais rápido. | A junção complexa retarda o processamento do cubo. |
P # 10) Qual é a diferença entre data warehouse e banco de dados operacional?
Resposta: A tabela abaixo explica as diferenças:
Armazém de dados | Banco de Dados Operacional | |
---|---|---|
7) | Suporta vários OLTP como clientes simultâneos. | Suporta muitos clientes simultâneos. |
1) | Eles são projetados para apoiar o processamento analítico de alto volume. | Estes suportam o processamento de transações de alto volume. |
2) | Os dados históricos afetam um data warehouse. | Os dados atuais afetam o banco de dados operacional. |
3) | Novos dados não voláteis são adicionados regularmente, mas raramente são alterados. | Os dados são atualizados regularmente conforme a necessidade. |
4) | Ele é projetado para analisar medidas de negócios por atributos, áreas de assunto e categorias. | Ele é projetado para processamento e negociações comerciais em tempo real. |
5) | Otimizado para cargas pesadas e consultas complexas acessando muitas linhas em cada tabela. | Otimizado para um único conjunto simples de transações, como recuperar e adicionar uma linha de cada vez para cada tabela. |
6) | Ele está cheio de informações válidas e consistentes e não precisa de nenhuma validação em tempo real. | Aprimorado para validar informações de entrada e usa tabelas de dados de validação. |
8) | Seus sistemas são principalmente orientados para o assunto. | Seus sistemas são principalmente orientados para o processo. |
9) | Dados fora. | Entrada de dados. |
10) | Um grande número de dados pode ser acessado. | Um número limitado de dados pode ser acessado. |
onze) | Criado para OLAP, processamento analítico on-line. | Criado para OLTP, processamento de transações on-line. |
P # 11) Aponte a diferença entre OLTP e OLAP.
Responda: A tabela abaixo explica as diferenças:
OLTP | OLAP | |
---|---|---|
7) | O volume de dados não é muito grande. | Possui um grande volume de dados. |
1) | Usado para gerenciar dados operacionais. | Usado para gerenciar dados informativos. |
2) | Clientes, balconistas e profissionais de TI usam. | Gerentes, analistas, executivos e outros profissionais do conhecimento o usam. |
3) | É orientado para o cliente. | É orientado para o mercado. |
4) | Gerencia os dados atuais, aqueles que são extremamente detalhados e são usados para a tomada de decisões. | Ele gerencia uma grande quantidade de dados históricos. Ele também fornece recursos para agregação e resumo junto com o gerenciamento e armazenamento de dados em diferentes níveis de granularidade. Conseqüentemente, os dados se tornam mais confortáveis para serem usados na tomada de decisões. |
5) | Tem um tamanho de banco de dados de 100 MB-GB. | Ele tem um tamanho de banco de dados de 100 GB-TB. |
6) | Ele usa um modelo de dados ER (entidade-relacionamento) junto com um design de banco de dados que é orientado a aplicativos. | OLAP usa um modelo de floco de neve ou estrela junto com um design de banco de dados que é orientado ao assunto. |
8) | Modo de acesso - leitura / gravação. | O modo de acesso é principalmente de gravação. |
9) | Completamente normalizado. | Parcialmente normalizado. |
10) | Sua velocidade de processamento é muito rápida. | Sua velocidade de processamento depende do número de arquivos que contém, consultas complexas e atualização de dados em lote |
P # 12) Explique o conceito principal por trás da Estrutura do Apache Hadoop.
Responda: É baseado no algoritmo MapReduce. Neste algoritmo, para processar um grande conjunto de dados, as operações Map e Reduce são usadas. Mapeia, filtra e classifica os dados enquanto Reduzir, resume os dados. Escalabilidade e tolerância a falhas são os pontos-chave neste conceito. Podemos obter esses recursos no Apache Hadoop implementando com eficiência MapReduce e Multi-threading.
P # 13) Você já trabalhou com o Hadoop Framework?
(imagem fonte )
Responda: Muitos gerentes de contratação perguntam sobre a ferramenta Hadoop na entrevista para saber se você está familiarizado com as ferramentas e linguagens que a empresa usa. Se você trabalhou com o Hadoop Framework, conte a eles os detalhes de seu projeto para trazer à luz seu conhecimento e habilidades com a ferramenta e seus recursos. E se você nunca trabalhou com ele, algumas pesquisas para mostrar alguma familiaridade com seus atributos também funcionarão.
Você pode dizer, por exemplo, “Enquanto trabalhava em um projeto de equipe, tive a chance de trabalhar com o Hadoop. Estávamos focados em aumentar a eficiência do processamento de dados, portanto, devido à sua capacidade de aumentar a velocidade do processamento dos dados sem comprometer a qualidade durante o seu processamento distribuído, decidimos usar o Hadoop.
E como minha empresa anterior esperava um aumento considerável no processamento de dados nos próximos meses, sua escalabilidade também foi útil. O Hadoop também é uma rede de código aberto baseada em Java, o que o torna a melhor opção para projetos com recursos limitados e fácil de usar sem nenhum treinamento adicional. ”
o melhor software para limpar seu computador
P # 14) Mencione alguns recursos importantes do Hadoop.
Resposta: Os recursos são os seguintes:
- Hadoop é um framework de código aberto gratuito onde podemos alterar o código-fonte de acordo com nossos requisitos.
- Ele suporta o processamento de dados distribuído mais rápido. O HDFS Hadoop armazena dados de maneira distribuída e usa MapReduce para processar os dados em paralelo.
- O Hadoop é altamente tolerante e, por padrão, em nós diferentes, permite ao usuário criar três réplicas de cada bloco. Portanto, se um dos nós não tiver êxito, podemos recuperar os dados de outro nó.
- Também é escalonável e compatível com muitos hardwares.
- Já o Hadoop armazenava dados em clusters, independente de todas as outras operações. Portanto, é confiável. Os dados armazenados não são afetados pelo mau funcionamento das máquinas. E, portanto, também está altamente disponível.
P # 15) Como você pode aumentar a receita do negócio analisando Big Data?
Responda: A análise de big data é uma parte vital dos negócios, pois os ajuda a se diferenciarem junto com o aumento da receita. A análise de big data oferece sugestões e recomendações personalizadas para empresas por meio de análises preditivas.
Ele também ajuda as empresas no lançamento de novos produtos com base nas preferências e necessidades dos clientes. Isso ajuda as empresas a ganharem significativamente mais, cerca de 5-20% a mais. Empresas como Bank of America, LinkedIn, Twitter, Walmart, Facebook, etc. usam Big Data Analysis para aumentar sua receita.
P # 16) Ao implantar uma solução de Big Data, quais etapas você deve seguir?
Resposta: Existem três etapas a serem seguidas durante a implantação de uma solução de Big Data:
- Ingestão de dados- É a primeira etapa na implantação de uma solução de Big Data. É a extração de dados de várias fontes, como SAP, MYSQL, Salesforce, arquivos de log, banco de dados interno, etc. A ingestão de dados pode acontecer por meio de streaming em tempo real ou jobs em lote.
- Armazenamento de dados- Depois que os dados são ingeridos, os dados extraídos devem ser armazenados em algum lugar. Ele é armazenado em bancos de dados HDFS ou NoSQL. O HDFS funciona bem para acesso sequencial por meio do HBase para acesso aleatório de leitura ou gravação.
- Processamento de dados- Esta é a terceira e a última etapa para implementar uma solução de Big Data. Após o armazenamento, os dados são processados por meio de uma das principais estruturas como MapReduce ou Pig.
P # 17) O que é um scanner de bloco e bloco no HDFS?
Responda: Um bloco é a quantidade mínima de dados que pode ser gravada ou lida no HDFS. 64 MB é o tamanho padrão de um bloco.
O scanner de bloco é um programa que rastreia o número de blocos em um DataNode periodicamente, verificando-os quanto a possíveis erros de checksum e corrupção de dados.
P # 18) Quais são os desafios que você enfrentou ao introduzir novos aplicativos de análise de dados, se é que já introduziu algum?
Responda: Se você nunca introduziu novas análises de dados, pode simplesmente dizer isso. Porque são muito caros e, portanto, não é sempre que as empresas fazem isso. Mas se uma empresa decidir investir nisso, pode ser um projeto extremamente ambicioso. Seriam necessários funcionários altamente treinados para instalar, conectar, usar e manter essas ferramentas.
Portanto, se você já passou pelo processo, diga a eles quais obstáculos você enfrentou e como os superou. Se ainda não o fez, diga em detalhes o que você sabe sobre o processo. Esta questão determina se você tem o know-how básico para superar os problemas que podem surgir durante a introdução de novos aplicativos de analítica de dados.
Resposta de amostra; “Participei da introdução de novas análises de dados em minha empresa anterior. Todo o processo é elaborado e precisa de um processo bem planejado para uma transição o mais suave possível.
No entanto, mesmo com um planejamento imaculado, nem sempre podemos evitar circunstâncias e problemas imprevistos. Um desses problemas era uma demanda incrivelmente alta por licenças de usuário. Foi além do que esperávamos. Para a obtenção das licenças adicionais, a empresa teve que realocar os recursos financeiros.
Além disso, o treinamento teve que ser planejado de forma que não atrapalhe o fluxo de trabalho. Além disso, tivemos que otimizar a infraestrutura para suportar o grande número de usuários. ”
P # 19) E se NameNode travar no cluster HDFS?
Responda: O cluster HDFS tem apenas um NameNode e mantém os metadados do DataNode. Ter apenas um NameNode dá aos clusters HDFS um único ponto de falha.
Portanto, se o NameNode travar, os sistemas podem ficar indisponíveis. Para evitar isso, podemos especificar um NameNode secundário que realiza os pontos de verificação periódicos nos sistemas de arquivos HDFS, mas não é um backup do NameNode. Mas podemos usá-lo para recriar NameNode e reiniciar.
Q # 20) Diferença entre NAS e DAS no Hadoop Cluster.
Responda: No NAS, as camadas de armazenamento e computação são separadas e, em seguida, o armazenamento é distribuído entre vários servidores na rede. Enquanto no DAS, o armazenamento é geralmente conectado ao nó de computação. O Apache Hadoop é baseado no princípio de processamento próximo a um local de dados específico.
Portanto, o disco de armazenamento deve ser local para a computação. O DAS ajuda a obter desempenho em um cluster Hadoop e pode ser usado em hardware comum. Em palavras simples, é mais econômico. O armazenamento NAS é preferido com alta largura de banda de cerca de 10 GbE.
P # 21) Construir um banco de dados NoSQL é melhor do que construir um banco de dados relacional?
(imagem fonte )
Responda: Em resposta a esta pergunta, você deve mostrar seu conhecimento sobre os dois bancos de dados. Além disso, você deve apoiá-lo com um exemplo da situação, demonstrando como você aplicará ou aplicará o know-how em um projeto real.
Sua resposta poderia ser algo como “Em algumas situações, pode ser benéfico construir um banco de dados NoSQL. Na minha última empresa, quando o sistema de franquia estava crescendo exponencialmente em tamanho, tivemos que aumentar rapidamente para aproveitar ao máximo todos os dados operacionais e de vendas que tínhamos.
O dimensionamento é melhor do que o dimensionamento com servidores maiores ao lidar com o aumento da carga de processamento de dados. É econômico e mais fácil de realizar com bancos de dados NoSQL, pois pode lidar facilmente com grandes volumes de dados. Isso é útil quando você precisa responder rapidamente a mudanças consideráveis na carga de dados no futuro.
Embora os bancos de dados relacionais venham com melhor conectividade para quaisquer ferramentas analíticas. Mas os bancos de dados NoSQL têm muito a oferecer ”.
P # 22) O que você faz quando encontra um problema inesperado com a manutenção de dados? Você já tentou alguma solução fora da caixa para isso?
Responda: Inevitavelmente, problemas inesperados surgem de vez em quando em todas as tarefas de rotina, mesmo durante a manutenção de dados. Esta pergunta visa saber se você pode lidar com situações de alta pressão e como.
Você pode dizer algo como “a manutenção de dados pode ser uma tarefa de rotina, mas é vital observar de perto as tarefas específicas, incluindo a garantia da execução bem-sucedida dos scripts.
Certa vez, durante a verificação de integridade, encontrei um índice corrompido que pode ter causado sérios problemas no futuro. É por isso que criei uma nova tarefa de manutenção para evitar a adição de índices corrompidos ao banco de dados da empresa. ”
P # 23) Você já treinou alguém em sua área? Se sim, o que você achou mais desafiador nisso?
Responda: Normalmente, os engenheiros de dados são necessários para treinar seus colegas de trabalho em novos sistemas ou processos que você criou ou treinar novos funcionários em sistemas e arquitetura já existentes. Então, com essa pergunta, seu entrevistador quer saber se você pode lidar com isso. Se você não teve a chance de treinar alguém, fale sobre os desafios que alguém que treinou ou você sabe que enfrentou.
Uma amostra da resposta ideal seria algo assim. “Sim, tive a oportunidade de treinar pequenos e grandes grupos de colegas de trabalho. Treinar novos funcionários com experiência significativa em outra empresa é a tarefa mais desafiadora que já encontrei. Eles costumam estar tão acostumados a abordar os dados de uma perspectiva diferente que lutam para aceitar a maneira como fazemos as coisas.
Muitas vezes, eles são extremamente opinativos e acham que sabem tudo certo e é por isso que leva muito tempo para eles perceberem que um problema pode ter mais de uma solução. Tento encorajá-los a abrir suas mentes e aceitar possibilidades alternativas, enfatizando o sucesso de nossa arquitetura e processos. ”
P # 24) Quais são os prós e os contras de trabalhar na computação em nuvem?
(imagem fonte )
Responda:
Prós:
- Sem custo de infraestrutura.
- Gestão mínima.
- Sem aborrecimentos em relação à gestão e administração.
- Fácil acesso.
- Pague pelo que você usa.
- É confiável.
- Ele oferece controle de dados, backup e recuperação.
- Armazenamento enorme.
Contras:
- Necessita de uma boa ligação à Internet com largura de banda igualmente boa para funcionar bem.
- Ele tem seu tempo de inatividade.
- Seu controle da infraestrutura será limitado.
- Existe pouca flexibilidade.
- Tem certos custos contínuos.
- Pode haver problemas técnicos e de segurança.
P # 25) O trabalho dos engenheiros de dados geralmente é 'backstage'. Você se sente confortável trabalhando longe dos 'holofotes'?
Responda: Seu gerente de contratação quer saber se você adora os holofotes ou se pode trabalhar bem nas duas situações. Sua resposta deve dizer a eles que, embora você goste dos holofotes, também se sente confortável trabalhando em segundo plano.
“O que importa para mim é que eu seja um especialista na minha área e contribua para o crescimento da minha empresa. Se eu tiver que trabalhar sob os holofotes, também me sinto confortável fazendo isso. Se houver um problema que os executivos precisam resolver, não hesitarei em levantar minha voz e chamar a atenção deles. ”
P # 26) O que acontece quando o scanner de bloco detecta um bloco de dados corrompido?
Responda: Em primeiro lugar, o DataNode se reporta ao NameNode. Em seguida, NameNode começa a criar uma nova réplica por meio da réplica do bloco corrompido. O bloco de dados corrompido não será excluído se a contagem de replicação das réplicas corretas corresponder ao fator de replicação.
P # 27) Você já encontrou um novo uso inovador para dados já existentes? Isso afetou a empresa positivamente?
Responda: Essa pergunta é para que eles descubram se você é automotivado e está ansioso o suficiente para contribuir para o sucesso dos projetos. Se possível, responda à pergunta com um exemplo em que você assumiu a responsabilidade por um projeto ou teve uma ideia. E se você já apresentou uma solução nova para um problema, não perca também.
Resposta de exemplo: “No meu último trabalho, participei na descoberta de porque temos uma alta taxa de rotatividade de funcionários. Observei de perto os dados de vários departamentos, onde encontrei dados altamente correlacionados em áreas-chave como finanças, marketing, operações, etc. e a taxa de rotatividade de funcionários.
Colaborou com os analistas do departamento para um melhor entendimento dessas correlações. Com nosso entendimento, fizemos algumas mudanças estratégicas que afetaram positivamente a taxa de rotatividade de funcionários. ”
P # 28) Quais habilidades não técnicas você acha que são mais úteis como engenheiro de dados?
Responda: Tente evitar as respostas mais óbvias, como comunicação ou habilidades interpessoais. Você pode dizer: “priorização e multitarefa costumam ser úteis no meu trabalho. Recebemos várias tarefas em um dia porque trabalhamos com departamentos diferentes. E, portanto, torna-se vital priorizá-los. Facilita nosso trabalho e nos ajuda a finalizá-los de maneira eficiente. ”
P # 29) Quais são alguns problemas comuns que você enfrenta como engenheiro de dados?
Resposta: São eles:
- Integração contínua e em tempo real.
- Armazenar grandes quantidades de dados e informações desses dados.
- Limitações de recursos.
- Considerar quais ferramentas usar e quais podem oferecer os melhores resultados.
Conclusão
A engenharia de dados pode parecer um trabalho chato de rotina, mas existem muitas facetas interessantes. Isso fica evidente nas possíveis perguntas de cenário que os entrevistadores podem fazer. Você deve estar pronto para responder não apenas às perguntas técnicas de livros, mas também às questões situacionais como as listadas acima. Só então você poderá provar que pode fazer bem o seu trabalho e merece-o.
Tudo de bom!!
Leitura recomendada
- Perguntas e respostas da entrevista
- Perguntas e respostas da entrevista de teste de ETL
- As 32 melhores perguntas e respostas da entrevista de datastage
- Principais perguntas e respostas da entrevista JSON
- Principais perguntas e respostas da entrevista do Teradata
- As 24 principais perguntas da entrevista de modelagem de dados com respostas detalhadas
- Mais de 50 perguntas e respostas para entrevistas em bancos de dados
- 30 principais perguntas e respostas da entrevista do SAS