weka explorer visualization
Aquest tutorial explica com realitzar la visualització de dades, l'anàlisi de clúster de K-means i l'explotació de regles d'associació mitjançant WEKA Explorer:
A la Tutorial anterior , vam aprendre sobre el conjunt de dades WEKA, el classificador i l'algorisme J48 per a l'arbre de decisions.
Com hem vist anteriorment, WEKA és una eina de mineria de dades de codi obert que utilitzen molts investigadors i estudiants per realitzar moltes tasques d’aprenentatge automàtic. Els usuaris també poden construir els seus mètodes d'aprenentatge automàtic i realitzar experiments amb conjunts de dades de mostra que es proporcionen al directori WEKA.
La visualització de dades a WEKA es pot realitzar mitjançant conjunts de dades de mostra o conjunts de dades fets per l'usuari en format .arff i .csv.
=> Llegiu la sèrie completa de formació sobre aprenentatge automàtic
La mineria de regles d’associació es realitza mitjançant l’algorisme Apriori. És l'únic algorisme proporcionat per WEKA per realitzar mines de patrons freqüents.
Hi ha molts algorismes presents a WEKA per realitzar anàlisis de clústers, com ara FartherestFirst, FilteredCluster i HierachicalCluster, etc. D’aquests, utilitzarem SimpleKmeans, que és el mètode més senzill de clusterització.
Què aprendreu:
- Associació de regles d'explotació mitjançant WEKA Explorer
- K-significa algorisme que utilitza WEKA Explorer
- Implementar la visualització de dades mitjançant WEKA
- Conclusió
Associació de regles d'explotació mitjançant WEKA Explorer
Vegem com implementar Association Rule Mining mitjançant WEKA Explorer.
Associació Minera de Regles
Va ser desenvolupat i dissenyat per Srikant i Aggarwal el 1994. Ens ajuda a trobar patrons a les dades. És un procés de mineria de dades que troba funcions que es produeixen juntes o característiques correlacionades.
diferència entre la prova d’unitat i la prova d’integració
Les aplicacions de les regles d’associació inclouen Anàlisi de cistelles de mercat, per analitzar els articles comprats en una sola cistella; Màrqueting creuat, per treballar amb altres empreses, cosa que augmenta el valor dels nostres productes comercials, com ara el concessionari de vehicles i Oil Company.
Les regles d’associació s’extreuen després de trobar conjunts d’elements freqüents en un gran conjunt de dades. Aquests conjunts de dades es troben utilitzant algoritmes de mineria com Apriori i FP Growth. Dades mineres sobre mines d’articles freqüents mitjançant mesures de suport i confiança.
Suport i confiança
Suport mesura la probabilitat que dos articles es comprin junts en una única transacció, com ara pa i mantega. Confiança és una mesura que estableix la probabilitat que es comprin dos articles un darrere l’altre però no junts, com ara el programari antivirus per a portàtils i ordinadors.
Es suposa que el suport del llindar mínim i el valor mínim de confiança del llindar permeten podar les transaccions i esbrinar el conjunt d’elements que es produeixen amb més freqüència.
Implementació mitjançant WEKA Explorer
WEKA conté una implementació del fitxer Algorisme Apriori per a l'aprenentatge de les regles d'associació. Apriori només funciona amb atributs binaris, dades categòriques (dades nominals), de manera que, si el conjunt de dades conté valors numèrics, converteix-los en nominals primer.
Apriori descobreix totes les regles amb un suport mínim i un llindar de confiança.
Seguiu els passos següents:
# 1) Prepareu un conjunt de dades de fitxers Excel i anomeneu-lo com a ' apriori.csv '.
# 2) Obriu l'Explorador WEKA i a la pestanya Preprocés, seleccioneu el fitxer 'apriori.csv'.
# 3) Ara el fitxer es carrega a l'explorador WEKA.
# 4) Traieu el camp Transacció marcant la casella de selecció i fent clic a Elimina, tal com es mostra a la imatge següent. Ara deseu el fitxer com a “aprioritest.arff”.
# 5) Aneu a la pestanya Associa. Les regles d'apriori es poden extreure d'aquí.
# 6) Feu clic a Tria per establir els paràmetres de suport i confiança. Els diversos paràmetres que es poden definir aquí són:
- ' lowerBoundMinSupport 'I' upperBoundMinSupport ”, Aquest és l’interval de nivell de suport en què funcionarà el nostre algorisme.
- Delta és l'increment del suport. En aquest cas, 0,05 és l'increment del suport de 0,1 a 1.
- metricType pot ser 'Confiança', 'Elevació', 'Aprofitament' i 'Convicció'. Això ens indica com classifiquem les regles de l'associació. En general, es tria la confiança.
- numRules indica el nombre de regles d'associació que s'han d'extreure. Per defecte, s'estableix com a 10.
- significanceLevel representa quina és la importància del nivell de confiança.
# 7) Al botó de text situat al costat de triar, es mostra el missatge ' Apriori-N-10-T-0-C-0.9-D 0.05-U1.0-M0.1-S-1.0-c-1 ”, Que representa les regles resumides establertes per a l'algorisme a la pestanya de configuració.
# 8) Feu clic al botó Inici. Les regles d'associació es generen al tauler dret. Aquest panell consta de 2 seccions. El primer és l'algorisme, conjunt de dades triat per executar-se. La segona part mostra la informació Apriori.
Feu-nos entendre la informació d’execució al tauler dret:
- Esquema usat Apriori.
- Instàncies i atributs: té 6 instàncies i 4 atributs.
- El suport mínim i la confiança mínima són 0,4 i 0,9 respectivament. De 6 casos, es troben 2 casos amb suport mínim,
- El nombre de cicles realitzats per a la regla de l'associació minera és de 12.
- Els grans conjunts d’elements generats són 3: L (1), L (2), L (3), però no es classifiquen, ja que les mides són 7, 11 i 5 respectivament.
- Les regles trobades es classifiquen. La interpretació d’aquestes regles és la següent:
- Mantega T 4 => Cervesa F 4: vol dir que de 6, 4 casos mostren que per a la mantega cert, la cervesa és falsa. Això dóna una associació forta. El nivell de confiança és de 0,1.
Sortida
Les regles d'associació es poden extreure mitjançant WEKA Explorer amb l'Algoritme Apriori. Aquest algorisme es pot aplicar a tot tipus de conjunts de dades disponibles al directori WEKA, així com a altres conjunts de dades creats per l'usuari. El suport i la confiança i altres paràmetres es poden configurar mitjançant la finestra Configuració de l'algorisme.
K-significa algorisme que utilitza WEKA Explorer
Vegem com implementar l'algorisme K-means per agrupar mitjançant WEKA Explorer.
Què és l’anàlisi de clústers
Els algorismes de clusterització són algorismes d’aprenentatge no supervisats que s’utilitzen per crear grups de dades amb característiques similars. Agrega objectes amb similituds en grups i subgrups, donant lloc a la partició de conjunts de dades. L’anàlisi de clústers és el procés de porcionament de conjunts de dades en subconjunts. Aquests subconjunts s’anomenen clústers i el conjunt de clústers s’anomena agrupació.
L’anàlisi de clústers s’utilitza en moltes aplicacions com el reconeixement d’imatges, el reconeixement de patrons, la cerca web i la seguretat, en intel·ligència empresarial, com ara l’agrupació de clients amb afeccions similars.
Què és K-significa agrupació
K significa que l'agrupació és l'algorisme de clusterització més senzill. A l'algorisme K-Clustering, el conjunt de dades està particionat en clústers K. S'utilitza una funció objectiva per trobar la qualitat de les particions de manera que objectes similars es trobin en un clúster i objectes diferents en altres grups.
En aquest mètode, es troba que el nucli central d’un clúster representa un clúster. El centreide es pren com el centre del clúster que es calcula com el valor mitjà dels punts dins del clúster. Ara la qualitat de l'agrupació es troba mesurant la distància euclidiana entre el punt i el centre. Aquesta distància ha de ser màxima.
Com funciona l'algorisme de clúster K-Mean
Pas 1: Trieu un valor de K on K sigui el nombre de clústers.
Pas 2: Iterar cada punt i assignar el clúster que té el centre més proper a ell. Quan es itera cada element, calculeu el centre de tots els clústers.
Pas 3: Iterar tots els elements del conjunt de dades i calcular la distància euclidiana entre el punt i el centre de cada clúster. Si hi ha algun punt present al clúster que no és el més proper a ell, reassigneu aquest punt al clúster més proper i després de fer-ho a tots els punts del conjunt de dades, torneu a calcular el centre de cada clúster.
Pas 4: Realitzeu el pas número 3 fins que no hi hagi cap assignació nova que s'hagi produït entre les dues iteracions consecutives.
K-significa implementació de clústers mitjançant WEKA
Els passos per a la implementació mitjançant Weka són els següents:
# 1) Obriu WEKA Explorer i feu clic a Obre fitxer a la pestanya Preprocés. Trieu el conjunt de dades 'vote.arff'.
# 2) Aneu a la pestanya 'Clúster' i feu clic al botó 'Tria'. Seleccioneu el mètode de clusterització com a 'SimpleKMeans'.
# 3) Trieu Configuració i definiu els camps següents:
- Funció de distància com a euclidià
- El nombre de clústers com a 6. Amb més nombre de clústers, es reduirà la suma d'errors quadrats.
- Llavor com a 10. de
Feu clic a Ok i inicieu l'algorisme.
# 4) Feu clic a Inici al tauler esquerre. Els resultats de l'algorisme es mostren a la pantalla blanca. Analitzem la informació de l'execució:
- Esquema, relació, instàncies i atributs descriuen la propietat del conjunt de dades i el mètode de clusterització utilitzat. En aquest cas, el conjunt de dades vote.arff té 435 instàncies i 13 atributs.
- Amb el clúster Kmeans, el nombre d’iteracions és de 5.
- La suma de l’error al quadrat és 1098,0. Aquest error es reduirà amb un augment del nombre de clústers.
- Els 5 grups finals amb centroides es representen en forma de taula. En el nostre cas, els centreids dels clústers són 168.0, 47.0, 37.0, 122.0.33.0 i 28.0.
- Les instàncies agrupades representen el nombre i el percentatge d’instàncies totals que cauen al clúster.
# 5) Trieu 'Classes a avaluacions de clústers' i feu clic a Inici.
L’algorisme assignarà l’etiqueta de classe al clúster. El clúster 0 representa republicà i el clúster 3 representa el demòcrata. La instància agrupada incorrectament és del 39,77%, que es pot reduir ignorant els atributs poc importants.
# 6) Per ignorar els atributs poc importants. Feu clic al botó 'Ignora els atributs' i seleccioneu els atributs que voleu eliminar.
# 7) Utilitzeu la pestanya 'Visualitza' per visualitzar el resultat de l'algorisme de clusterització. Aneu a la pestanya i feu clic a qualsevol quadre. Moveu la fluctuació al màxim.
- L'eix X i l'eix Y representen l'atribut.
- El color blau representa l’etiqueta de classe demòcrata i el color vermell representa l’etiqueta de classe republicana.
- Jitter s'utilitza per veure clústers.
- Feu clic al quadre de la part dreta de la finestra per canviar l'atribut de coordenades x i veure el clúster respecte d'altres atributs.
Sortida
K significa que l’agrupació és un simple mètode d’anàlisi de clústers. El nombre de clústers es pot establir mitjançant la pestanya de configuració. El centre de cada cúmul es calcula com la mitjana de tots els punts dins dels cúmuls. Amb l’augment del nombre de clústers, es redueix la suma d’errors quadrats. Els objectes del clúster presenten característiques i propietats similars. Els clústers representen les etiquetes de les classes.
Implementar la visualització de dades mitjançant WEKA
Visualització de dades
El mètode de representació de dades a través de gràfics i gràfics amb l’objectiu d’entendre les dades amb claredat és la visualització de dades.
Hi ha moltes maneres de representar les dades. Alguns d’ells són els següents:
# 1) Visualització orientada al píxel: Aquí el color del píxel representa el valor de la dimensió. El color del píxel representa els valors corresponents.
# 2) Representació geomètrica: Els conjunts de dades multidimensionals es representen en gràfics de dispersió 2D, 3D i 4D.
# 3) Visualització basada en icones: Les dades es representen mitjançant les cares i figures de Chernoff. Les cares de Chernoff utilitzen la capacitat de la ment humana per reconèixer les característiques facials i les diferències entre elles. La figura del pal utilitza 5 figures del pal per representar dades multidimensionals.
# 4) Visualització de dades jeràrquiques: Els conjunts de dades es representen mitjançant mapes d’arbres. Representa les dades jeràrquiques com un conjunt de triangles imbricats.
Visualització de dades mitjançant WEKA Explorer
La visualització de dades mitjançant WEKA es fa al conjunt de dades IRIS.arff.
Els passos necessaris són els següents:
# 1) Aneu a la pestanya Preprocés i obriu el conjunt de dades IRIS.arff.
# 2) El conjunt de dades té 4 atributs i 1 etiqueta de classe. Els atributs d’aquest conjunt de dades són:
- Longitud separada: Tipus -numèric
- Amplada separada: Tipus numèric
- Longitud de petal: Tipogràfic
- Ample de petal: Tipogràfic
- Classe: Tipus nominal
# 3) Per visualitzar el conjunt de dades, aneu a la pestanya Visualitza. La pestanya mostra la matriu del diagrama d’atributs. Els atributs del conjunt de dades es marquen a l'eix X i a l'eix Y mentre es representen les instàncies. El quadre amb l’atribut de l’eix x i l’atribut de l’eix y es pot ampliar.
# 4) Feu clic al quadre de la trama per ampliar-la. Per exemple, x: longitud de petal i y: ample de petal. Les etiquetes de les classes es representen en diferents colors.
- Etiqueta de la classe- Iris-setosa: color blau
- Etiqueta de la classe: iris-versicolor: vermell
- Etiqueta de classe-Iris-virginica-verd
Aquests colors es poden canviar. Per canviar el color, feu clic a l’etiqueta de la classe a la part inferior, apareixerà una finestra de color.
com puc executar un fitxer .jar
# 5) Feu clic a la instància representada per 'x' a la trama. Donarà detalls de la instància. Per exemple:
- Número d'instància: 91
- Longitud de separació: 5.5
- Amplada separada: 2.6
- Longitud de petal: 4.4
- Ample de petal: 1.2
- Classe: Iris-versicolor
Alguns dels punts de la trama semblen més foscos que altres punts. Aquests punts representen dos o més casos amb la mateixa etiqueta de classe i el mateix valor d’atributs representats al gràfic, com ara l’amplada de petal i la longitud de petal.
La figura següent representa un punt amb informació de 2 instàncies.
# 6) Els atributs dels eixos X i Y es poden canviar des del tauler dret del gràfic Visualitza. L'usuari pot visualitzar diferents parcel·les.
# 7) El Jitter s’utilitza per afegir aleatorietat a la trama. De vegades, els punts se superposen. Amb fluctuacions, els punts més foscos representen múltiples casos.
# 8) Per obtenir una visualització més clara del conjunt de dades i eliminar valors atípics, l'usuari pot seleccionar una instància al menú desplegable. Feu clic al menú desplegable 'seleccionar instància'. Trieu 'Rectangle'. Amb això, l'usuari podrà seleccionar punts de la trama traçant un rectangle.
# 9) Feu clic a 'Envia'. Només es mostraran els punts de conjunt de dades seleccionats i els altres punts quedaran exclosos del gràfic.
La figura següent mostra els punts de la forma rectangular seleccionada. La trama representa punts amb només 3 etiquetes de classe. L'usuari pot fer clic a 'Desa' per desar el conjunt de dades o a 'Restableix' per seleccionar una altra instància. El conjunt de dades es desarà en un fitxer .ARFF separat.
Sortida:
La visualització de dades mitjançant WEKA es simplifica amb l'ajut de la gràfica del quadre. L'usuari pot veure qualsevol nivell de granularitat. Els atributs es representen a l’eix X i a l’eix y, mentre que les instàncies es representen a l’eix X i a l’eix Y. Alguns punts representen múltiples instàncies que es representen per punts amb color fosc.
Conclusió
WEKA és una eina eficient de mineria de dades per realitzar moltes tasques de mineria de dades i experimentar amb nous mètodes a través de conjunts de dades. WEKA ha estat desenvolupat pel Departament d'Informàtica de la Universitat de Waikato a Nova Zelanda.
El món actual està desbordat de dades, des de comprar al supermercat fins a càmeres de seguretat a casa nostra. La mineria de dades utilitza aquestes dades en brut, les converteix en informació per fer prediccions. WEKA amb l'ajut de l'Algoritme Apriori ajuda a les regles d'associació minera del conjunt de dades. Apriori és un algorisme freqüent de mineria de patrons que compta el nombre d’ocurrències d’un conjunt d’elements a la transacció.
L’anàlisi de clústers és una tècnica per esbrinar clústers de dades que representen característiques similars. WEKA proporciona molts algoritmes per realitzar anàlisis de clústers dels quals els mitjans senzills són molt utilitzats.
La visualització de dades a WEKA es pot realitzar en tots els conjunts de dades del directori WEKA. Es pot visualitzar el conjunt de dades en brut, així com altres conjunts de dades resultants d'altres algorismes, com ara la classificació, l'agrupació i l'associació, mitjançant WEKA.
=> Visiteu aquí la sèrie exclusiva d’aprenentatge automàtic
Lectura recomanada
- Tutorial de Weka: com descarregar, instal·lar i utilitzar l'eina de Weka
- Conjunt de dades WEKA, classificador i algorisme J48 per a l'arbre de decisions
- 15 MILLORS eines i programari de visualització de dades el 2021
- Tutorial D3.js: marc de visualització de dades per a principiants
- Tutorial de visualització de dades D3.js: formes, gràfics i animacions
- 7 Principis de proves de programari: agrupament de defectes i principi de Pareto
- Mineria de dades: procés, tècniques i grans qüestions en l’anàlisi de dades
- Tècniques de mineria de dades: algorisme, mètodes i eines principals de mineria de dades