WEKA Explorer: visualização, agrupamento, mineração de regras de associação

weka explorer visualization

Experimente Nosso Instrumento Para Eliminar Problemas

Selecione O Sistema Operacional Escolha Um Programa De Projeção (Opcionalmente)

Descreva Seu Problema

Este tutorial explica como realizar Visualização de Dados, Análise de Cluster K-means e Mineração de Regras de Associação usando o WEKA Explorer:

No Tutorial anterior , aprendemos sobre WEKA Dataset, Classifier e J48 Algorithm for Decision Tree.

Como vimos antes, o WEKA é uma ferramenta de mineração de dados de código aberto usada por muitos pesquisadores e alunos para realizar muitas tarefas de aprendizado de máquina. Os usuários também podem construir seus métodos de aprendizado de máquina e realizar experimentos em conjuntos de dados de amostra fornecidos no diretório WEKA.

A visualização de dados no WEKA pode ser realizada usando conjuntos de dados de amostra ou conjuntos de dados feitos pelo usuário no formato .arff, .csv.

=> Leia a série completa de treinamento em aprendizado de máquina

WEKA Explorer

A Mineração de Regra de Associação é realizada usando o algoritmo Apriori. É o único algoritmo fornecido pelo WEKA para realizar mineração frequente de padrões.

Existem muitos algoritmos presentes no WEKA para realizar a análise de cluster, como FartherestFirst, FilteredCluster e HierachicalCluster, etc. Destes, usaremos SimpleKmeans, que é o método mais simples de armazenamento em cluster.

O que você aprenderá:

Mineração de regra de associação usando WEKA Explorer
Algoritmo K-means usando WEKA Explorer
Implementar visualização de dados usando WEKA
- Visualização de dados
- Visualização de dados usando WEKA Explorer
Conclusão
- Leitura recomendada

Mineração de regra de associação usando WEKA Explorer

Vamos ver como implementar a Mineração de Regras de Associação usando o WEKA Explorer.

Mineração de regras de associação

Ele foi desenvolvido e projetado por Srikant e Aggarwal em 1994. Ele nos ajuda a encontrar padrões nos dados. É um processo de mineração de dados que encontra recursos que ocorrem juntos ou recursos que são correlacionados.

os direitos primários de acesso a arquivos no unix são:

As aplicações das regras de associação incluem Análise de cesta de compras, para analisar os itens comprados em uma única cesta; Cross Marketing, para trabalhar com outras empresas que aumentem o valor do nosso produto comercial, como concessionária de veículos e Oil Company.

As regras de associação são minadas depois que conjuntos de itens frequentes em um grande conjunto de dados são encontrados. Esses conjuntos de dados são encontrados usando algoritmos de mineração como Apriori e FP Growth. A mineração Frequent Itemset extrai dados usando medidas de suporte e confiança.

Suporte e confiança

Apoio, suporte mede a probabilidade de que dois itens sejam comprados juntos em uma única transação, como pão com manteiga. Confiança é uma medida que indica a probabilidade de dois itens serem comprados um após o outro, mas não juntos, como um software antivírus para laptop e computador.

O suporte de limite mínimo e os valores de confiança de limite mínimo são assumidos para eliminar as transações e descobrir o conjunto de itens que ocorre com mais frequência.

Implementação usando WEKA Explorer

WEKA contém uma implementação do Algoritmo a priori para aprender regras de associação. A priori funciona apenas com atributos binários, dados categóricos (dados nominais), portanto, se o conjunto de dados contiver quaisquer valores numéricos, converta-os primeiro em nominais.

Apriori descobre todas as regras com suporte mínimo e limite de confiança.

Siga os passos abaixo:

# 1) Prepare um conjunto de dados de arquivo do Excel e nomeie-o como “ apriori.csv '

arquivo excel

#dois) Abra o WEKA Explorer e na guia Pré-processo, escolha o arquivo “apriori.csv”.

Escolha o arquivo “apriori.csv”

# 3) O arquivo agora é carregado no WEKA Explorer.

Arquivo Carregado

# 4) Remova o campo Transação marcando a caixa de seleção e clicando em Remover conforme mostrado na imagem abaixo. Agora salve o arquivo como “aprioritest.arff”.

Remover transação

salvar aprioritest

# 5) Vá para a guia Associate. As regras a priori podem ser exploradas a partir daqui.

# 6) Clique em Escolher para definir os parâmetros de suporte e confiança. Os vários parâmetros que podem ser definidos aqui são:

' lowerBoundMinSupport ' e ' upperBoundMinSupport ”, Este é o intervalo de nível de suporte em que nosso algoritmo funcionará.
Delta é o incremento no suporte. Nesse caso, 0,05 é o incremento do suporte de 0,1 para 1.
metricType pode ser “Confiança”, “Elevação”, “Alavancagem” e “Convicção”. Isso nos diz como classificamos as regras de associação. Geralmente, a confiança é escolhida.
numRules informa o número de regras de associação a serem exploradas. Por padrão, é definido como 10.
nível de significância descreve qual é o significado do nível de confiança.

Parâmetros de suporte e confiança

# 7) A caixa de texto ao lado do botão de escolha mostra o “ A priori-N-10-T-0-C-0,9-D 0,05-U1,0-M0,1-S-1,0-c-1 ”, Que descreve as regras resumidas definidas para o algoritmo na guia de configurações.

Associado

# 8) Clique no botão Iniciar. As regras de associação são geradas no painel direito. Este painel consiste em 2 seções. O primeiro é o algoritmo, conjunto de dados escolhido para execução. A segunda parte mostra as Informações Apriori.

Informação a priori

Deixe-nos entender as informações de execução no painel direito:

Scheme nos usou a priori.
Instâncias e Atributos: Possui 6 instâncias e 4 atributos.
O suporte mínimo e a confiança mínima são 0,4 e 0,9, respectivamente. De 6 instâncias, 2 instâncias são encontradas com suporte mínimo,
O número de ciclos executados para a regra de associação de mineração é 12.
Os grandes conjuntos de itens gerados são 3: L (1), L (2), L (3), mas não são classificados, pois seus tamanhos são 7, 11 e 5, respectivamente.
As regras encontradas são classificadas. A interpretação dessas regras é a seguinte:
- Manteiga T 4 => Cerveja F 4: média de 6, 4 exemplos mostram que para manteiga verdadeira, cerveja é falsa. Isso dá uma forte associação. O nível de confiança é 0,1.

Resultado

As regras de associação podem ser analisadas usando o WEKA Explorer com Algoritmo Apriori. Este algoritmo pode ser aplicado a todos os tipos de conjuntos de dados disponíveis no diretório WEKA, bem como a outros conjuntos de dados feitos pelo usuário. O suporte, a confiança e outros parâmetros podem ser definidos usando a janela de configuração do algoritmo.

Algoritmo K-means usando WEKA Explorer

Vamos ver como implementar o algoritmo K-means para clustering usando o WEKA Explorer.

O que é análise de cluster

Algoritmos de cluster são algoritmos de aprendizagem não supervisionados usados para criar grupos de dados com características semelhantes. Ele agrega objetos com semelhanças em grupos e subgrupos, levando ao particionamento de conjuntos de dados. A análise de cluster é o processo de divisão de conjuntos de dados em subconjuntos. Esses subconjuntos são chamados de clusters e o conjunto de clusters é chamado de clustering.

A análise de cluster é usada em muitas aplicações, como reconhecimento de imagem, reconhecimento de padrões, pesquisa na web e segurança, em inteligência de negócios, como agrupamento de clientes com gostos semelhantes.

O que é clustering K-means

K significa que o agrupamento é o algoritmo de agrupamento mais simples. No algoritmo K-Clustering, o conjunto de dados é particionado em K-clusters. Uma função objetivo é usada para encontrar a qualidade das partições de forma que objetos semelhantes fiquem em um cluster e objetos diferentes em outros grupos.

Neste método, o centróide de um cluster representa um cluster. O centróide é considerado o centro do cluster, que é calculado como o valor médio dos pontos dentro do cluster. Agora, a qualidade do agrupamento é encontrada medindo a distância euclidiana entre o ponto e o centro. Essa distância deve ser máxima.

Como funciona o algoritmo de clustering K-Mean

Passo 1: Escolha um valor de K onde K é o número de clusters.

Passo 2: Repita cada ponto e atribua o cluster que tem o centro mais próximo a ele. Quando cada elemento for iterado, calcule o centróide de todos os clusters.

Etapa 3: Repita cada elemento do conjunto de dados e calcule a distância euclidiana entre o ponto e o centróide de cada cluster. Se houver algum ponto presente no cluster que não esteja mais próximo a ele, reatribua esse ponto ao cluster mais próximo e, depois de fazer isso para todos os pontos no conjunto de dados, calcule novamente o centróide de cada cluster.

Passo 4: Execute a Etapa 3 até que não haja nenhuma nova atribuição ocorrida entre as duas iterações consecutivas.

Implementação de cluster K-means usando WEKA

As etapas para implementação usando Weka são as seguintes:

# 1) Abra o WEKA Explorer e clique em Abrir arquivo na guia Pré-processamento. Escolha o conjunto de dados “vote.arff”.

vote.arff

#dois) Vá até a guia “Cluster” e clique no botão “Escolher”. Selecione o método de agrupamento como “SimpleKMeans”.

SimpleKmeans

# 3) Escolha Configurações e, em seguida, defina os seguintes campos:

Distância funciona como euclidiana
O número de clusters é 6. Com mais número de clusters, a soma do erro quadrático será reduzida.
Semente como 10. de

Clique em Ok e inicie o algoritmo.

Configurações Kmeans

# 4) Clique em Iniciar no painel esquerdo. O algoritmo exibe os resultados na tela branca. Deixe-nos analisar as informações da corrida:

Esquema, relação, instâncias e atributos descrevem a propriedade do conjunto de dados e o método de agrupamento usado. Nesse caso, o conjunto de dados vote.arff tem 435 instâncias e 13 atributos.
Com o cluster Kmeans, o número de iterações é 5.
A soma do erro quadrático é 1098,0. Esse erro diminuirá com o aumento do número de clusters.
Os 5 clusters finais com centróides são representados na forma de uma tabela. Em nosso caso, os centróides dos clusters são 168,0, 47,0, 37,0, 122.0.33.0 e 28.0.
As instâncias em cluster representam o número e a porcentagem do total de instâncias que caem no cluster.

Informações de execução

Informação Kmeans

# 5) Escolha “Classes to Clusters Evaluations” e clique em Iniciar.

O algoritmo atribuirá o rótulo da classe ao cluster. O cluster 0 representa republicano e o cluster 3 representa democrata. A instância com cluster incorreto é de 39,77%, que pode ser reduzida ignorando os atributos sem importância.

Classes para avaliações de clusters

# 6) Para ignorar os atributos sem importância. Clique no botão “Ignorar atributos” e selecione os atributos a serem removidos.

# 7) Use a guia “Visualizar” para visualizar o resultado do algoritmo de Clustering. Vá para a guia e clique em qualquer caixa. Mova o Jitter ao máximo.

O eixo X e o eixo Y representam o atributo.
A cor azul representa o rótulo de classe democrata e a cor vermelha representa o rótulo de classe republicano.
Jitter é usado para visualizar clusters.
Clique na caixa do lado direito da janela para alterar o atributo da coordenada x e visualizar o agrupamento em relação a outros atributos.

Aulas

Resultado

K significa que o agrupamento é um método simples de análise de agrupamento. O número de clusters pode ser definido usando a guia de configuração. O centróide de cada cluster é calculado como a média de todos os pontos dentro dos clusters. Com o aumento do número de clusters, a soma dos erros quadrados diminui. Os objetos dentro do cluster exibem características e propriedades semelhantes. Os clusters representam os rótulos das classes.

Implementar visualização de dados usando WEKA

Visualização de dados

O método de representação de dados por meio de gráficos e plotagens com o objetivo de compreender os dados com clareza é a visualização de dados.

Existem muitas maneiras de representar dados. Alguns deles são os seguintes:

# 1) Visualização orientada a pixels: Aqui, a cor do pixel representa o valor da dimensão. A cor do pixel representa os valores correspondentes.

PixelOriented

# 2) Representação geométrica: Os conjuntos de dados multidimensionais são representados em gráficos de dispersão 2D, 3D e 4D.

ScatterPlot

# 3) Visualização baseada em ícones: Os dados são representados usando os rostos e figuras de palito de Chernoff. Os rostos de Chernoff usam a capacidade da mente humana de reconhecer as características faciais e as diferenças entre elas. O boneco usa 5 bonecos para representar dados multidimensionais.

Cheronoff

# 4) Visualização de dados hierárquica: Os conjuntos de dados são representados por meio de mapas de árvore. Ele representa dados hierárquicos como um conjunto de triângulos aninhados.

Treemaps

Visualização de dados usando WEKA Explorer

A visualização de dados usando WEKA é feita no conjunto de dados IRIS.arff.

As etapas envolvidas são as seguintes:

# 1) Vá para a guia Pré-processamento e abra o conjunto de dados IRIS.arff.

#dois) O conjunto de dados possui 4 atributos e 1 rótulo de classe. Os atributos neste conjunto de dados são:

Comprimento Sepall: Digite -numeric
Sepalwidth: Tipo - numérico
Comprimento da pétala: Tipo-numérico
Largura da pétala: Tipo-numérico
Aula: Tipo nominal

Visualização

# 3) Para visualizar o conjunto de dados, acesse a aba Visualizar. A guia mostra a matriz do gráfico de atributos. Os atributos do conjunto de dados são marcados nos eixos xey enquanto as instâncias são plotadas. A caixa com o atributo do eixo x e o atributo do eixo y pode ser ampliada.

Guia Visualizar

# 4) Clique na caixa do lote para ampliar. Por exemplo, x: comprimento da pétala ey: largura da pétala. Os rótulos das classes são representados em cores diferentes.

Rótulo da classe - Iris-setosa: cor azul
Rótulo da classe - Iris-versicolor: vermelho
Classe label-Iris-virginica-green

Essas cores podem ser alteradas. Para alterar a cor, clique no rótulo da classe na parte inferior, uma janela de cores aparecerá.

Guia Visualizar

Janela de cores

# 5) Clique na instância representada por 'x' no gráfico. Ele fornecerá os detalhes da instância. Por exemplo:

implementando uma fila prioritária em java

Número da instância: 91
Comprimento Sepal: 5,5
Sepalwidth: 2,6
Comprimento da pétala: 4,4
Largura da pétala: 1,2
Aula: Iris-versicolor

Alguns dos pontos no gráfico parecem mais escuros do que outros pontos. Esses pontos representam 2 ou mais instâncias com o mesmo rótulo de classe e o mesmo valor de atributos plotados no gráfico, como largura da pétala e comprimento da pétala.

A figura abaixo representa um ponto com 2 informações de instância.

Detalhes da instância

Instâncias Weka

# 6) Os atributos dos eixos X e Y podem ser alterados no painel direito no gráfico Visualizar. O usuário pode visualizar diferentes gráficos.

# 7) O Jitter é usado para adicionar aleatoriedade ao gráfico. Às vezes, os pontos se sobrepõem. Com o jitter, os pontos mais escuros representam várias instâncias.

Jitter

# 8) Para obter uma visão mais clara do conjunto de dados e remover outliers, o usuário pode selecionar uma instância no menu suspenso. Clique na lista suspensa “selecionar instância”. Escolha “Retângulo”. Com isso, o usuário poderá selecionar pontos no gráfico traçando um retângulo.

Selecione a instância

# 9) Clique em “Enviar”. Apenas os pontos do conjunto de dados selecionados serão exibidos e os outros pontos serão excluídos do gráfico.

A figura abaixo mostra os pontos da forma retangular selecionada. O gráfico representa pontos com apenas 3 rótulos de classe. O usuário pode clicar em “Salvar” para salvar o conjunto de dados ou “Redefinir” para selecionar outra instância. O conjunto de dados será salvo em um arquivo .ARFF separado.

Instância Retangular

Resultado:

A visualização de dados usando WEKA é simplificada com a ajuda do box plot. O usuário pode visualizar qualquer nível de granularidade. Os atributos são plotados nos eixos Xey, enquanto as instâncias são plotadas em relação aos eixos X e Y. Alguns pontos representam instâncias múltiplas que são representadas por pontos com cor escura.

Conclusão

WEKA é uma ferramenta de mineração de dados eficiente para realizar muitas tarefas de mineração de dados, bem como experimentar novos métodos em conjuntos de dados. O WEKA foi desenvolvido pelo Departamento de Ciência da Computação da Universidade de Waikato na Nova Zelândia.

O mundo de hoje está sobrecarregado com dados, desde compras no supermercado até câmeras de segurança em nossa casa. A mineração de dados usa esses dados brutos e os converte em informações para fazer previsões. O WEKA com a ajuda do Algoritmo Apriori auxilia na mineração das regras de associação no conjunto de dados. A priori é um algoritmo de mineração de padrões frequente que conta o número de ocorrências de um conjunto de itens na transação.

A análise de cluster é uma técnica para descobrir clusters de dados que representam características semelhantes. O WEKA fornece muitos algoritmos para realizar a análise de cluster, dos quais o simplekmeans é altamente usado.

A visualização de dados no WEKA pode ser realizada em todos os conjuntos de dados no diretório WEKA. O conjunto de dados bruto pode ser visualizado, bem como outros conjuntos de dados resultantes de outros algoritmos, como classificação, agrupamento e associação, podem ser visualizados usando WEKA.

=> Visite aqui para a série exclusiva de aprendizado de máquina

WEKA Explorer: visualização, agrupamento, mineração de regras de associação

Mineração de regra de associação usando WEKA Explorer

Mineração de regras de associação

Suporte e confiança

Implementação usando WEKA Explorer

Algoritmo K-means usando WEKA Explorer

O que é análise de cluster

O que é clustering K-means

Como funciona o algoritmo de clustering K-Mean

Implementação de cluster K-means usando WEKA

Implementar visualização de dados usando WEKA

Visualização de dados

Visualização de dados usando WEKA Explorer

Conclusão

Leitura recomendada

Artigos Interessantes

Escolha Do Editor

A Sega celebra a revelação da tatuagem da Yakuza, e nós também deveríamos

Novo patch do Prey adiciona recursos do PS4 Pro e corrige pequenos problemas

A pré-visualização do desenvolvedor Phasmophobia descreve novos cartões de identificação e microfones parabólicos

Oxenfree II: Lost Signals sintoniza alguns mistérios de outro mundo em julho

50 principais perguntas e respostas da entrevista do Salesforce (Atualizado em 2021)

Persona 5 Royal corta o planeta com Futaba Sakura

Super Smash Bros. Ultimate ganha ouro, novas notas lançadas por Sakurai

Gearbox está transformando Brothers in Arms em um programa de TV

O último RPG Stray Children da Onion Games foi adiado do inverno para apenas ‘2024’

Lembrete: faltam apenas um mês para o WiiWare fechar a loja

Ikaruga do homem que pensa: Pare e cheire a dualidade

Você só terá que esperar até abril pelos Pilares da Eternidade II