data mining process models
Este tutorial sobre o processo de mineração de dados cobre os modelos de mineração de dados, etapas e desafios envolvidos no processo de extração de dados:
Técnicas de mineração de dados foram explicados em detalhes em nosso tutorial anterior neste Treinamento completo de mineração de dados para todos . Data Mining é um campo promissor no mundo da ciência e tecnologia.
Data Mining, também conhecido como Knowledge Discovery in Databases, é um processo de descoberta de informações úteis de grandes volumes de dados armazenados em bancos de dados e data warehouses. Essa análise é feita para os processos de tomada de decisão nas empresas.
A mineração de dados é realizada por meio de várias técnicas, como agrupamento, associação e análise de padrão sequencial e árvore de decisão.
O que você aprenderá:
- O que é mineração de dados?
- Extração de dados como um processo
- Modelos de mineração de dados
- Etapas do processo de mineração de dados
- Processo de mineração de dados no Oracle DBMS
- Processo de mineração de dados em datawarehouse
- Quais são os aplicativos de extração de dados?
- Desafios de mineração de dados
- Conclusão
- Leitura recomendada
O que é mineração de dados?
Data Mining é um processo de descoberta de padrões interessantes e conhecimento de grandes quantidades de dados. As fontes de dados podem incluir bancos de dados, data warehouses, a web e outros repositórios de informações ou dados que são transmitidos dinamicamente para o sistema.
Por que as empresas precisam de extração de dados?
Com o advento do Big Data, a mineração de dados se tornou mais prevalente. Big data são conjuntos de dados extremamente grandes que podem ser analisados por computadores para revelar certos padrões, associações e tendências que podem ser entendidos por humanos. Big data contém informações extensas sobre diversos tipos e conteúdos variados.
Assim, com essa quantidade de dados, estatísticas simples com intervenção manual não funcionariam. Essa necessidade é atendida pelo processo de mineração de dados. Isso leva à mudança de estatísticas de dados simples para algoritmos de mineração de dados complexos.
O processo de mineração de dados extrairá informações relevantes de dados brutos, como transações, fotos, vídeos, arquivos planos e processará automaticamente as informações para gerar relatórios úteis para as empresas agirem.
Assim, o processo de mineração de dados é crucial para as empresas tomarem melhores decisões, descobrindo padrões e tendências nos dados, resumindo os dados e retirando informações relevantes.
Extração de dados como um processo
Qualquer problema de negócios examinará os dados brutos para construir um modelo que descreverá as informações e revelará os relatórios a serem usados pela empresa. Construir um modelo a partir de fontes e formatos de dados é um processo iterativo, pois os dados brutos estão disponíveis em muitas fontes e formatos diferentes.
Os dados estão aumentando dia a dia, portanto, quando uma nova fonte de dados é encontrada, os resultados podem ser alterados.
Abaixo está o esboço do processo.
(imagem fonte )
Modelos de mineração de dados
Muitos setores, como manufatura, marketing, químico e aeroespacial, estão aproveitando a mineração de dados. Assim, a demanda por processos de mineração de dados padrão e confiáveis aumenta drasticamente.
Os modelos de mineração de dados importantes incluem:
# 1) Processo padrão entre setores para mineração de dados (CRISP-DM)
CRISP-DM é um modelo de mineração de dados confiável que consiste em seis fases. É um processo cíclico que fornece uma abordagem estruturada para o processo de mineração de dados. As seis fases podem ser implementadas em qualquer ordem, mas às vezes exigiria voltar às etapas anteriores e repetir as ações.
qual é a sua chave de segurança de rede
As seis fases do CRISP-DM incluem:
# 1) Compreensão de negócios: Nesta etapa, os objetivos dos negócios são definidos e os fatores importantes que o ajudarão a atingir o objetivo são descobertos.
# 2) Compreensão de dados: Esta etapa coletará todos os dados e os preencherá na ferramenta (se estiver usando qualquer ferramenta). Os dados são listados com sua fonte de dados, localização, como foram adquiridos e se algum problema foi encontrado. Os dados são visualizados e consultados para verificar sua integridade.
# 3) Preparação de dados: Esta etapa envolve a seleção dos dados apropriados, limpeza, construção de atributos de dados, integração de dados de vários bancos de dados.
# 4) Modelagem: A seleção da técnica de mineração de dados, como árvore de decisão, gerar design de teste para avaliar o modelo selecionado, construir modelos a partir do conjunto de dados e avaliar o modelo construído com especialistas para discutir o resultado é feita nesta etapa.
# 5) Avaliação: Esta etapa determinará o grau em que o modelo resultante atende aos requisitos de negócios. A avaliação pode ser feita testando o modelo em aplicativos reais. O modelo é revisado para quaisquer erros ou etapas que devam ser repetidas.
# 6) Implementação: Nesta etapa é feito um plano de implantação, estratégia para monitorar e manter os resultados do modelo de mineração de dados para verificar sua utilidade é formada, relatórios finais são feitos e revisão de todo o processo é feita para verificar qualquer erro e ver se alguma etapa é repetida .
(imagem fonte )
# 2) SEMMA (Amostra, Explorar, Modificar, Modelar, Avaliar)
SEMMA é outra metodologia de mineração de dados desenvolvida pelo SAS Institute. A sigla SEMMA significa amostrar, explorar, modificar, modelar, avaliar.
SEMMA torna mais fácil aplicar estatísticas exploratórias e técnicas de visualização, selecionar e transformar as variáveis preditas significativas, criar um modelo usando as variáveis para chegar ao resultado e verificar sua precisão. A SEMMA também é impulsionada por um ciclo altamente iterativo.
Etapas na SEMMA
- Amostra: Nesta etapa, um grande conjunto de dados é extraído e uma amostra que representa os dados completos é retirada. A amostragem reduzirá os custos computacionais e o tempo de processamento.
- Explorar: Os dados são explorados em busca de outliers e anomalias para uma melhor compreensão dos dados. Os dados são verificados visualmente para descobrir as tendências e agrupamentos.
- Modificar: Nesta etapa, a manipulação de dados como agrupamento e subgrupo é feita mantendo em foco o modelo a ser construído.
- Modelo: Com base nas explorações e modificações, os modelos que explicam os padrões nos dados são construídos.
- Avaliar: A utilidade e confiabilidade do modelo construído são avaliadas nesta etapa. O teste do modelo em relação aos dados reais é feito aqui.
Tanto a abordagem SEMMA quanto a CRISP funcionam para o Processo de Descoberta de Conhecimento. Uma vez que os modelos são construídos, eles são implantados para negócios e trabalhos de pesquisa.
Etapas do processo de mineração de dados
O processo de mineração de dados é dividido em duas partes, ou seja, pré-processamento de dados e mineração de dados. O pré-processamento de dados envolve limpeza e integração de dados, redução e transformação de dados. A parte de mineração de dados realiza mineração de dados, avaliação de padrões e representação de conhecimento de dados.
(imagem fonte )
Por que pré-processamos os dados?
Existem muitos fatores que determinam a utilidade dos dados, como precisão, integridade, consistência, oportunidade. Os dados devem ser de qualidade se satisfizerem a finalidade pretendida. Portanto, o pré-processamento é crucial no processo de mineração de dados. As principais etapas envolvidas no pré-processamento de dados são explicadas a seguir.
# 1) Limpeza de dados
A limpeza de dados é a primeira etapa da mineração de dados. É importante porque os dados sujos, se usados diretamente na mineração, podem causar confusão nos procedimentos e produzir resultados imprecisos.
Basicamente, esta etapa envolve a remoção de dados ruidosos ou incompletos da coleção. Muitos métodos que geralmente limpam os dados por si só estão disponíveis, mas não são robustos.
Esta etapa realiza o trabalho de limpeza de rotina:
(i) Preencha os dados ausentes:
Os dados ausentes podem ser preenchidos por métodos como:
- Ignorando a tupla.
- Preenchendo o valor ausente manualmente.
- Use a medida de tendência central, mediana ou
- Preenchendo o valor mais provável.
(ii) Remova os dados ruidosos: O erro aleatório é denominado dados ruidosos.
Os métodos para remover o ruído são:
Binning: Os métodos de categorização são aplicados classificando os valores em baldes ou compartimentos. A suavização é realizada consultando os valores vizinhos.
O binning é feito alisando por bin, ou seja, cada bin é substituído pela média do bin. Suavização por uma mediana, em que cada valor de categoria é substituído por uma mediana de categoria. Suavização por limites bin, ou seja, os valores mínimo e máximo no bin são limites bin e cada valor bin é substituído pelo valor de limite mais próximo.
html css entrevista perguntas e respostas
- Identificando os Outliers
- Resolvendo inconsistências
# 2) Integração de dados
Quando várias fontes de dados heterogêneas, como bancos de dados, cubos de dados ou arquivos são combinados para análise, esse processo é chamado de integração de dados. Isso pode ajudar a melhorar a precisão e a velocidade do processo de mineração de dados.
Diferentes bancos de dados têm diferentes convenções de nomenclatura de variáveis, causando redundâncias nos bancos de dados. Limpeza de dados adicional pode ser realizada para remover as redundâncias e inconsistências da integração de dados sem afetar a confiabilidade dos dados.
A integração de dados pode ser realizada usando ferramentas de migração de dados, como Oracle Data Service Integrator e Microsoft SQL etc.
# 3) Redução de dados
Esta técnica é aplicada para obter dados relevantes para análise a partir da coleta de dados. O tamanho da representação é muito menor em volume, mantendo a integridade. A redução de dados é realizada usando métodos como Naive Bayes, Árvores de Decisão, Rede Neural, etc.
Algumas estratégias de redução de dados são:
- Redução de dimensionalidade: Reduzindo o número de atributos no conjunto de dados.
- Redução de Numerosidade: Substituir o volume de dados original por formas menores de representação de dados.
- Compressão de dados: Representação compactada dos dados originais.
# 4) Transformação de dados
Neste processo, os dados são transformados em uma forma adequada para o processo de mineração de dados. Os dados são consolidados para que o processo de mineração seja mais eficiente e os padrões sejam mais fáceis de entender. A transformação de dados envolve mapeamento de dados e processo de geração de código.
As estratégias para transformação de dados são:
- Suavização: Remoção de ruído de dados usando agrupamento, técnicas de regressão, etc.
- Agregação: As operações de resumo são aplicadas aos dados.
- Normalização: Dimensionamento de dados para cair em um intervalo menor.
- Discretização: Os valores brutos de dados numéricos são substituídos por intervalos. Por exemplo, Idade.
# 5) Mineração de dados
Data Mining é um processo para identificar padrões e conhecimentos interessantes de uma grande quantidade de dados. Nessas etapas, padrões inteligentes são aplicados para extrair os padrões de dados. Os dados são representados na forma de padrões e os modelos são estruturados por meio de técnicas de classificação e agrupamento.
# 6) Avaliação de padrão
Esta etapa envolve a identificação de padrões interessantes que representam o conhecimento com base em medidas de interesse. Métodos de resumo e visualização de dados são usados para tornar os dados compreensíveis para o usuário.
# 7) Representação de Conhecimento
A representação do conhecimento é uma etapa em que as ferramentas de visualização de dados e representação do conhecimento são usadas para representar os dados extraídos. Os dados são visualizados na forma de relatórios, tabelas, etc.
Processo de mineração de dados no Oracle DBMS
RDBMS representa dados na forma de tabelas com linhas e colunas. Os dados podem ser acessados escrevendo consultas ao banco de dados.
Os sistemas de gerenciamento de banco de dados relacional, como Oracle, oferecem suporte à mineração de dados usando CRISP-DM. Os recursos do banco de dados Oracle são úteis na preparação e compreensão dos dados. A Oracle oferece suporte à mineração de dados por meio de interface java, interface PL / SQL, mineração de dados automatizada, funções SQL e interfaces gráficas de usuário.
Processo de mineração de dados em datawarehouse
Um data warehouse é modelado para uma estrutura de dados multidimensional chamada cubo de dados. Cada célula em um cubo de dados armazena o valor de algumas medidas agregadas.
Mineração de dados em espaço multidimensional realizada no estilo OLAP (Online Analytical Processing) onde permite a exploração de múltiplas combinações de dimensões em diversos níveis de granularidade.
Quais são os aplicativos de extração de dados?
A lista de áreas onde a mineração de dados é amplamente usada inclui:
como passar um array como parâmetro em java
# 1) Análise de dados financeiros: A mineração de dados é amplamente utilizada em serviços bancários, de investimento, de crédito, hipotecas, empréstimos para automóveis e seguros e serviços de investimento em ações. Os dados coletados dessas fontes são completos, confiáveis e de alta qualidade. Isso facilita a análise sistemática de dados e mineração de dados.
# 2) Indústrias de varejo e telecomunicações: O setor de varejo coleta grandes quantidades de dados sobre vendas, histórico de compras do cliente, transporte de mercadorias, consumo e serviço. A mineração de dados de varejo ajuda a identificar comportamentos de compra do cliente, padrões de compra do cliente e tendências, melhorar a qualidade do serviço ao cliente, melhor retenção do cliente e satisfação.
# 3) Ciência e Engenharia: A ciência da computação e a engenharia da mineração de dados podem ajudar a monitorar o status do sistema, melhorar o desempenho do sistema, isolar bugs de software, detectar plágio de software e reconhecer mau funcionamento do sistema.
# 4) Detecção e prevenção de intrusão: A intrusão é definida como qualquer conjunto de ações que ameaçam a integridade, confidencialidade ou disponibilidade dos recursos da rede. Métodos de mineração de dados podem ajudar na detecção de intrusão e sistema de prevenção para melhorar seu desempenho.
# 5) Sistemas de recomendação: Os sistemas de recomendação ajudam os consumidores fazendo recomendações de produtos que são do interesse dos usuários.
Desafios de mineração de dados
Listados abaixo estão os vários desafios envolvidos na mineração de dados.
- A mineração de dados precisa de grandes bancos de dados e coleta de dados que são difíceis de gerenciar.
- O processo de mineração de dados requer especialistas de domínio que são novamente difíceis de encontrar.
- A integração de bancos de dados heterogêneos é um processo complexo.
- As práticas de nível organizacional precisam ser modificadas para usar os resultados da mineração de dados. A reestruturação do processo exige esforço e custo.
Conclusão
A mineração de dados é um processo iterativo onde o processo de mineração pode ser refinado e novos dados podem ser integrados para obter resultados mais eficientes. A mineração de dados atende ao requisito de análise de dados eficaz, escalonável e flexível.
Pode ser considerada uma avaliação natural da tecnologia da informação. Como um processo de descoberta de conhecimento, as tarefas de preparação de dados e mineração de dados completam o processo de mineração de dados.
Os processos de mineração de dados podem ser executados em qualquer tipo de dados, como dados de banco de dados e bancos de dados avançados, como séries temporais, etc. O processo de mineração de dados também apresenta seus próprios desafios.
Fique ligado em nosso próximo tutorial para saber mais sobre os exemplos de mineração de dados !!
PREV Tutorial | PRÓXIMO Tutorial
Leitura recomendada
- Mineração de dados: processo, técnicas e questões importantes na análise de dados
- Técnicas de mineração de dados: algoritmo, métodos e principais ferramentas de mineração de dados
- As 10 melhores ferramentas de mapeamento de dados úteis no processo ETL (2021 LIST)
- Dez principais ferramentas de design de banco de dados para construir modelos de dados complexos
- Data Mining Vs Machine Learning Vs Artificial Intelligence Vs Deep Learning
- As 15 melhores ferramentas gratuitas de mineração de dados: a lista mais abrangente
- Conceito, processo e estratégia de gerenciamento de dados de teste
- Parametrização de dados JMeter usando variáveis definidas pelo usuário