weka explorer visualization
Este tutorial explica como realizar Visualização de Dados, Análise de Cluster K-means e Mineração de Regras de Associação usando o WEKA Explorer:
No Tutorial anterior , aprendemos sobre WEKA Dataset, Classifier e J48 Algorithm for Decision Tree.
Como vimos antes, o WEKA é uma ferramenta de mineração de dados de código aberto usada por muitos pesquisadores e alunos para realizar muitas tarefas de aprendizado de máquina. Os usuários também podem construir seus métodos de aprendizado de máquina e realizar experimentos em conjuntos de dados de amostra fornecidos no diretório WEKA.
A visualização de dados no WEKA pode ser realizada usando conjuntos de dados de amostra ou conjuntos de dados feitos pelo usuário no formato .arff, .csv.
=> Leia a série completa de treinamento em aprendizado de máquina
A Mineração de Regra de Associação é realizada usando o algoritmo Apriori. É o único algoritmo fornecido pelo WEKA para realizar mineração frequente de padrões.
Existem muitos algoritmos presentes no WEKA para realizar a análise de cluster, como FartherestFirst, FilteredCluster e HierachicalCluster, etc. Destes, usaremos SimpleKmeans, que é o método mais simples de armazenamento em cluster.
O que você aprenderá:
- Mineração de regra de associação usando WEKA Explorer
- Algoritmo K-means usando WEKA Explorer
- Implementar visualização de dados usando WEKA
- Conclusão
Mineração de regra de associação usando WEKA Explorer
Vamos ver como implementar a Mineração de Regras de Associação usando o WEKA Explorer.
Mineração de regras de associação
Ele foi desenvolvido e projetado por Srikant e Aggarwal em 1994. Ele nos ajuda a encontrar padrões nos dados. É um processo de mineração de dados que encontra recursos que ocorrem juntos ou recursos que são correlacionados.
os direitos primários de acesso a arquivos no unix são:
As aplicações das regras de associação incluem Análise de cesta de compras, para analisar os itens comprados em uma única cesta; Cross Marketing, para trabalhar com outras empresas que aumentem o valor do nosso produto comercial, como concessionária de veículos e Oil Company.
As regras de associação são minadas depois que conjuntos de itens frequentes em um grande conjunto de dados são encontrados. Esses conjuntos de dados são encontrados usando algoritmos de mineração como Apriori e FP Growth. A mineração Frequent Itemset extrai dados usando medidas de suporte e confiança.
Suporte e confiança
Apoio, suporte mede a probabilidade de que dois itens sejam comprados juntos em uma única transação, como pão com manteiga. Confiança é uma medida que indica a probabilidade de dois itens serem comprados um após o outro, mas não juntos, como um software antivírus para laptop e computador.
O suporte de limite mínimo e os valores de confiança de limite mínimo são assumidos para eliminar as transações e descobrir o conjunto de itens que ocorre com mais frequência.
Implementação usando WEKA Explorer
WEKA contém uma implementação do Algoritmo a priori para aprender regras de associação. A priori funciona apenas com atributos binários, dados categóricos (dados nominais), portanto, se o conjunto de dados contiver quaisquer valores numéricos, converta-os primeiro em nominais.
Apriori descobre todas as regras com suporte mínimo e limite de confiança.
Siga os passos abaixo:
# 1) Prepare um conjunto de dados de arquivo do Excel e nomeie-o como “ apriori.csv '
#dois) Abra o WEKA Explorer e na guia Pré-processo, escolha o arquivo “apriori.csv”.
# 3) O arquivo agora é carregado no WEKA Explorer.
# 4) Remova o campo Transação marcando a caixa de seleção e clicando em Remover conforme mostrado na imagem abaixo. Agora salve o arquivo como “aprioritest.arff”.
# 5) Vá para a guia Associate. As regras a priori podem ser exploradas a partir daqui.
# 6) Clique em Escolher para definir os parâmetros de suporte e confiança. Os vários parâmetros que podem ser definidos aqui são:
- ' lowerBoundMinSupport ' e ' upperBoundMinSupport ”, Este é o intervalo de nível de suporte em que nosso algoritmo funcionará.
- Delta é o incremento no suporte. Nesse caso, 0,05 é o incremento do suporte de 0,1 para 1.
- metricType pode ser “Confiança”, “Elevação”, “Alavancagem” e “Convicção”. Isso nos diz como classificamos as regras de associação. Geralmente, a confiança é escolhida.
- numRules informa o número de regras de associação a serem exploradas. Por padrão, é definido como 10.
- nível de significância descreve qual é o significado do nível de confiança.
# 7) A caixa de texto ao lado do botão de escolha mostra o “ A priori-N-10-T-0-C-0,9-D 0,05-U1,0-M0,1-S-1,0-c-1 ”, Que descreve as regras resumidas definidas para o algoritmo na guia de configurações.
# 8) Clique no botão Iniciar. As regras de associação são geradas no painel direito. Este painel consiste em 2 seções. O primeiro é o algoritmo, conjunto de dados escolhido para execução. A segunda parte mostra as Informações Apriori.
Deixe-nos entender as informações de execução no painel direito:
- Scheme nos usou a priori.
- Instâncias e Atributos: Possui 6 instâncias e 4 atributos.
- O suporte mínimo e a confiança mínima são 0,4 e 0,9, respectivamente. De 6 instâncias, 2 instâncias são encontradas com suporte mínimo,
- O número de ciclos executados para a regra de associação de mineração é 12.
- Os grandes conjuntos de itens gerados são 3: L (1), L (2), L (3), mas não são classificados, pois seus tamanhos são 7, 11 e 5, respectivamente.
- As regras encontradas são classificadas. A interpretação dessas regras é a seguinte:
- Manteiga T 4 => Cerveja F 4: média de 6, 4 exemplos mostram que para manteiga verdadeira, cerveja é falsa. Isso dá uma forte associação. O nível de confiança é 0,1.
Resultado
As regras de associação podem ser analisadas usando o WEKA Explorer com Algoritmo Apriori. Este algoritmo pode ser aplicado a todos os tipos de conjuntos de dados disponíveis no diretório WEKA, bem como a outros conjuntos de dados feitos pelo usuário. O suporte, a confiança e outros parâmetros podem ser definidos usando a janela de configuração do algoritmo.
Algoritmo K-means usando WEKA Explorer
Vamos ver como implementar o algoritmo K-means para clustering usando o WEKA Explorer.
O que é análise de cluster
Algoritmos de cluster são algoritmos de aprendizagem não supervisionados usados para criar grupos de dados com características semelhantes. Ele agrega objetos com semelhanças em grupos e subgrupos, levando ao particionamento de conjuntos de dados. A análise de cluster é o processo de divisão de conjuntos de dados em subconjuntos. Esses subconjuntos são chamados de clusters e o conjunto de clusters é chamado de clustering.
A análise de cluster é usada em muitas aplicações, como reconhecimento de imagem, reconhecimento de padrões, pesquisa na web e segurança, em inteligência de negócios, como agrupamento de clientes com gostos semelhantes.
O que é clustering K-means
K significa que o agrupamento é o algoritmo de agrupamento mais simples. No algoritmo K-Clustering, o conjunto de dados é particionado em K-clusters. Uma função objetivo é usada para encontrar a qualidade das partições de forma que objetos semelhantes fiquem em um cluster e objetos diferentes em outros grupos.
Neste método, o centróide de um cluster representa um cluster. O centróide é considerado o centro do cluster, que é calculado como o valor médio dos pontos dentro do cluster. Agora, a qualidade do agrupamento é encontrada medindo a distância euclidiana entre o ponto e o centro. Essa distância deve ser máxima.
Como funciona o algoritmo de clustering K-Mean
Passo 1: Escolha um valor de K onde K é o número de clusters.
Passo 2: Repita cada ponto e atribua o cluster que tem o centro mais próximo a ele. Quando cada elemento for iterado, calcule o centróide de todos os clusters.
Etapa 3: Repita cada elemento do conjunto de dados e calcule a distância euclidiana entre o ponto e o centróide de cada cluster. Se houver algum ponto presente no cluster que não esteja mais próximo a ele, reatribua esse ponto ao cluster mais próximo e, depois de fazer isso para todos os pontos no conjunto de dados, calcule novamente o centróide de cada cluster.
Passo 4: Execute a Etapa 3 até que não haja nenhuma nova atribuição ocorrida entre as duas iterações consecutivas.
Implementação de cluster K-means usando WEKA
As etapas para implementação usando Weka são as seguintes:
# 1) Abra o WEKA Explorer e clique em Abrir arquivo na guia Pré-processamento. Escolha o conjunto de dados “vote.arff”.
#dois) Vá até a guia “Cluster” e clique no botão “Escolher”. Selecione o método de agrupamento como “SimpleKMeans”.
# 3) Escolha Configurações e, em seguida, defina os seguintes campos:
- Distância funciona como euclidiana
- O número de clusters é 6. Com mais número de clusters, a soma do erro quadrático será reduzida.
- Semente como 10. de
Clique em Ok e inicie o algoritmo.
# 4) Clique em Iniciar no painel esquerdo. O algoritmo exibe os resultados na tela branca. Deixe-nos analisar as informações da corrida:
- Esquema, relação, instâncias e atributos descrevem a propriedade do conjunto de dados e o método de agrupamento usado. Nesse caso, o conjunto de dados vote.arff tem 435 instâncias e 13 atributos.
- Com o cluster Kmeans, o número de iterações é 5.
- A soma do erro quadrático é 1098,0. Esse erro diminuirá com o aumento do número de clusters.
- Os 5 clusters finais com centróides são representados na forma de uma tabela. Em nosso caso, os centróides dos clusters são 168,0, 47,0, 37,0, 122.0.33.0 e 28.0.
- As instâncias em cluster representam o número e a porcentagem do total de instâncias que caem no cluster.
# 5) Escolha “Classes to Clusters Evaluations” e clique em Iniciar.
O algoritmo atribuirá o rótulo da classe ao cluster. O cluster 0 representa republicano e o cluster 3 representa democrata. A instância com cluster incorreto é de 39,77%, que pode ser reduzida ignorando os atributos sem importância.
# 6) Para ignorar os atributos sem importância. Clique no botão “Ignorar atributos” e selecione os atributos a serem removidos.
# 7) Use a guia “Visualizar” para visualizar o resultado do algoritmo de Clustering. Vá para a guia e clique em qualquer caixa. Mova o Jitter ao máximo.
- O eixo X e o eixo Y representam o atributo.
- A cor azul representa o rótulo de classe democrata e a cor vermelha representa o rótulo de classe republicano.
- Jitter é usado para visualizar clusters.
- Clique na caixa do lado direito da janela para alterar o atributo da coordenada x e visualizar o agrupamento em relação a outros atributos.
Resultado
K significa que o agrupamento é um método simples de análise de agrupamento. O número de clusters pode ser definido usando a guia de configuração. O centróide de cada cluster é calculado como a média de todos os pontos dentro dos clusters. Com o aumento do número de clusters, a soma dos erros quadrados diminui. Os objetos dentro do cluster exibem características e propriedades semelhantes. Os clusters representam os rótulos das classes.
Implementar visualização de dados usando WEKA
Visualização de dados
O método de representação de dados por meio de gráficos e plotagens com o objetivo de compreender os dados com clareza é a visualização de dados.
Existem muitas maneiras de representar dados. Alguns deles são os seguintes:
# 1) Visualização orientada a pixels: Aqui, a cor do pixel representa o valor da dimensão. A cor do pixel representa os valores correspondentes.
# 2) Representação geométrica: Os conjuntos de dados multidimensionais são representados em gráficos de dispersão 2D, 3D e 4D.
# 3) Visualização baseada em ícones: Os dados são representados usando os rostos e figuras de palito de Chernoff. Os rostos de Chernoff usam a capacidade da mente humana de reconhecer as características faciais e as diferenças entre elas. O boneco usa 5 bonecos para representar dados multidimensionais.
# 4) Visualização de dados hierárquica: Os conjuntos de dados são representados por meio de mapas de árvore. Ele representa dados hierárquicos como um conjunto de triângulos aninhados.
Visualização de dados usando WEKA Explorer
A visualização de dados usando WEKA é feita no conjunto de dados IRIS.arff.
As etapas envolvidas são as seguintes:
# 1) Vá para a guia Pré-processamento e abra o conjunto de dados IRIS.arff.
#dois) O conjunto de dados possui 4 atributos e 1 rótulo de classe. Os atributos neste conjunto de dados são:
- Comprimento Sepall: Digite -numeric
- Sepalwidth: Tipo - numérico
- Comprimento da pétala: Tipo-numérico
- Largura da pétala: Tipo-numérico
- Aula: Tipo nominal
# 3) Para visualizar o conjunto de dados, acesse a aba Visualizar. A guia mostra a matriz do gráfico de atributos. Os atributos do conjunto de dados são marcados nos eixos xey enquanto as instâncias são plotadas. A caixa com o atributo do eixo x e o atributo do eixo y pode ser ampliada.
# 4) Clique na caixa do lote para ampliar. Por exemplo, x: comprimento da pétala ey: largura da pétala. Os rótulos das classes são representados em cores diferentes.
- Rótulo da classe - Iris-setosa: cor azul
- Rótulo da classe - Iris-versicolor: vermelho
- Classe label-Iris-virginica-green
Essas cores podem ser alteradas. Para alterar a cor, clique no rótulo da classe na parte inferior, uma janela de cores aparecerá.
# 5) Clique na instância representada por 'x' no gráfico. Ele fornecerá os detalhes da instância. Por exemplo:
implementando uma fila prioritária em java
- Número da instância: 91
- Comprimento Sepal: 5,5
- Sepalwidth: 2,6
- Comprimento da pétala: 4,4
- Largura da pétala: 1,2
- Aula: Iris-versicolor
Alguns dos pontos no gráfico parecem mais escuros do que outros pontos. Esses pontos representam 2 ou mais instâncias com o mesmo rótulo de classe e o mesmo valor de atributos plotados no gráfico, como largura da pétala e comprimento da pétala.
A figura abaixo representa um ponto com 2 informações de instância.
# 6) Os atributos dos eixos X e Y podem ser alterados no painel direito no gráfico Visualizar. O usuário pode visualizar diferentes gráficos.
# 7) O Jitter é usado para adicionar aleatoriedade ao gráfico. Às vezes, os pontos se sobrepõem. Com o jitter, os pontos mais escuros representam várias instâncias.
# 8) Para obter uma visão mais clara do conjunto de dados e remover outliers, o usuário pode selecionar uma instância no menu suspenso. Clique na lista suspensa “selecionar instância”. Escolha “Retângulo”. Com isso, o usuário poderá selecionar pontos no gráfico traçando um retângulo.
# 9) Clique em “Enviar”. Apenas os pontos do conjunto de dados selecionados serão exibidos e os outros pontos serão excluídos do gráfico.
A figura abaixo mostra os pontos da forma retangular selecionada. O gráfico representa pontos com apenas 3 rótulos de classe. O usuário pode clicar em “Salvar” para salvar o conjunto de dados ou “Redefinir” para selecionar outra instância. O conjunto de dados será salvo em um arquivo .ARFF separado.
Resultado:
A visualização de dados usando WEKA é simplificada com a ajuda do box plot. O usuário pode visualizar qualquer nível de granularidade. Os atributos são plotados nos eixos Xey, enquanto as instâncias são plotadas em relação aos eixos X e Y. Alguns pontos representam instâncias múltiplas que são representadas por pontos com cor escura.
Conclusão
WEKA é uma ferramenta de mineração de dados eficiente para realizar muitas tarefas de mineração de dados, bem como experimentar novos métodos em conjuntos de dados. O WEKA foi desenvolvido pelo Departamento de Ciência da Computação da Universidade de Waikato na Nova Zelândia.
O mundo de hoje está sobrecarregado com dados, desde compras no supermercado até câmeras de segurança em nossa casa. A mineração de dados usa esses dados brutos e os converte em informações para fazer previsões. O WEKA com a ajuda do Algoritmo Apriori auxilia na mineração das regras de associação no conjunto de dados. A priori é um algoritmo de mineração de padrões frequente que conta o número de ocorrências de um conjunto de itens na transação.
A análise de cluster é uma técnica para descobrir clusters de dados que representam características semelhantes. O WEKA fornece muitos algoritmos para realizar a análise de cluster, dos quais o simplekmeans é altamente usado.
A visualização de dados no WEKA pode ser realizada em todos os conjuntos de dados no diretório WEKA. O conjunto de dados bruto pode ser visualizado, bem como outros conjuntos de dados resultantes de outros algoritmos, como classificação, agrupamento e associação, podem ser visualizados usando WEKA.
=> Visite aqui para a série exclusiva de aprendizado de máquina
Leitura recomendada
- Tutorial Weka - Como baixar, instalar e usar a ferramenta Weka
- Conjunto de dados WEKA, classificador e algoritmo J48 para árvore de decisão
- 15 MELHORES Ferramentas e Software de Visualização de Dados em 2021
- Tutorial D3.js - Estrutura de visualização de dados para iniciantes
- Tutorial de visualização de dados D3.js - formas, gráfico, animação
- 7 Princípios de Teste de Software: Clustering de Defeitos e Princípio de Pareto
- Mineração de dados: processo, técnicas e questões importantes na análise de dados
- Técnicas de mineração de dados: algoritmo, métodos e principais ferramentas de mineração de dados