weka tutorial how download
Aquest tutorial de WEKA explica què és l'eina d'aprenentatge automàtic de Weka, les seves funcions i com descarregar, instal·lar i utilitzar el programari d'aprenentatge automàtic de Weka:
A la Tutorial anterior , hem après sobre Support Vector Machine a ML i conceptes associats com Hyperplane, Support Vectors i Aplicacions de SVM.
L’aprenentatge automàtic és un camp de la ciència on les màquines actuen com un sistema artificialment intel·ligent. Les màquines poden aprendre per si mateixes sense necessitat de cap codificació explícita. És un procés iteratiu que accedeix a les dades, aprèn per si mateix i prediu el resultat. Per executar tasques d'aprenentatge automàtic es necessiten moltes eines i scripts.
WEKA és una plataforma d'aprenentatge automàtic que consisteix en moltes eines que faciliten moltes activitats d'aprenentatge automàtic.
=> Llegiu la sèrie completa de formació sobre aprenentatge automàtic
preguntes i respostes d'entrevistes per a desenvolupadors de bases de dades pdf
Què aprendreu:
- Què és WEKA
- Conclusió
Què és WEKA
Weka és una eina de codi obert dissenyada i desenvolupada pels científics / investigadors de la Universitat de Waikato, Nova Zelanda. WEKA significa Waikato Environment per a l'anàlisi del coneixement. Està desenvolupat per la comunitat científica internacional i distribuït sota la llicència gratuïta GNU GPL.
WEKA està completament desenvolupat a Java. Proporciona integració amb la base de dades SQL mitjançant connectivitat a la base de dades Java. Proporciona molts algorismes d'aprenentatge automàtic per implementar tasques de mineria de dades. Aquests algoritmes es poden utilitzar directament mitjançant l'eina WEKA o es poden utilitzar amb altres aplicacions amb llenguatge de programació Java.
Proporciona moltes eines per al processament de dades, classificació, agrupació, anàlisi de regressió, creació de regles d’associació, extracció de funcions i visualització de dades. És una potent eina que dóna suport al desenvolupament de nous algoritmes d'aprenentatge automàtic.
Per què utilitzar l'eina d'aprenentatge automàtic WEKA?
Amb WEKA, els algoritmes d’aprenentatge automàtic estan fàcilment disponibles per als usuaris. Els especialistes en ML poden utilitzar aquests mètodes per extreure informació útil de volums elevats de dades. Aquí, els especialistes poden crear un entorn per desenvolupar nous mètodes d’aprenentatge automàtic i implementar-los en dades reals.
WEKA l’utilitzen investigadors d’aprenentatge automàtic i ciències aplicades amb finalitats d’aprenentatge. És una eina eficient per dur a terme moltes tasques de mineria de dades.
Descàrrega i instal·lació de WEKA
# 1) Baixeu-vos el programari des de aquí .
Comproveu la configuració del sistema informàtic i descarregueu la versió estable de WEKA (actualment 3.8) des d’aquesta pàgina.
# 2) Després de baixar-la correctament, obriu la ubicació del fitxer i feu doble clic al fitxer descarregat. Apareixerà l’assistent Step Up. Feu clic a Següent.
# 3) S'obriran els termes del contracte de llicència. Llegiu-lo a fons i feu clic a 'Estic d'acord'.
# 4) Segons els vostres requisits, seleccioneu els components que voleu instal·lar. Es recomana la instal·lació de components complets. Feu clic a Següent.
# 5) Seleccioneu la carpeta de destinació i feu clic a Següent.
# 6) A continuació, començarà la instal·lació.
# 7) Si Java no està instal·lat al sistema, primer s’instal·larà Java.
# 8) Un cop finalitzada la instal·lació, apareixerà la finestra següent. Feu clic a Següent.
# 9) Marqueu la casella de selecció Inicia Weka. Feu clic a Finalitza.
# 10) S'obre la finestra WEKA Tool i Explorer.
# 11) El manual WEKA es pot descarregar des de aquí.
Interfície gràfica d'usuari de WEKA
La GUI de WEKA ofereix cinc opcions: Explorador, experimentador, flux de coneixement, banc de treball i CLI simple. Entenguem cadascun d’aquests de manera individual.
# 1) CLI simple
La CLI simple és Weka Shell amb línia d'ordres i sortida. Amb 'ajuda', es pot veure la visió general de totes les ordres. Simple CLI ofereix accés a totes les classes, com ara classificadors, clústers i filtres, etc.
Algunes de les ordres CLI simples són:
- Trencar: Per aturar el fil actual
- Sortida: Sortiu de la CLI
- Ajuda (): Ofereix l'ajuda per a l'ordre especificada
- -java weka.classifiers.trees.J48 -t c: /temp/iris.arff: Per invocar una classe WEKA, prefixeu-la amb Java. Aquesta ordre dirigirà WEKA a carregar la classe i executar-la amb els paràmetres indicats. En aquesta ordre s'invoca el classificador J48 al conjunt de dades IRIS.
# 2) Explorador
Les finestres WEKA Explorer mostren diferents pestanyes que comencen amb el preprocés. Inicialment, la pestanya de preprocés està activa, ja que primer es preprocessa el conjunt de dades abans d’aplicar-hi algorismes i explorar el conjunt de dades.
Les pestanyes són les següents:
- Preprocés: Trieu i modifiqueu les dades carregades.
- Classifica: Apliqueu algorismes d’entrenament i proves a les dades que classificaran i retrocediran.
- Clúster: Formeu clústers a partir de les dades.
- Associat: Elimineu la regla d'associació per a les dades.
- Seleccioneu atributs: S’apliquen mesures de selecció d’atributs.
- Visualitza: Es veu representació 2D de dades.
- Barra d'estat: La secció més inferior de la finestra mostra la barra d'estat. Aquesta secció mostra el que passa actualment en forma de missatge, com ara que s'està carregant un fitxer. Feu clic dret sobre això, Memòria informació es pot veure, i també Correr escombraries col·leccionista per alliberar espai es pot executar.
- Botó de registre: Emmagatzema un registre de totes les accions a Weka amb la marca de temps. Els registres es mostren en una finestra independent quan es fa clic al botó Registre.
- Icona WEKA Bird: Present a l'extrem inferior dret mostra WEKA Bird amb representa el nombre de processos que s'estan executant simultàniament (per x.). Quan s’executa el procés, l’ocell es mourà.
# 3) Experimentador
El botó experimentador WEKA permet als usuaris crear, executar i modificar diferents esquemes en un experiment en un conjunt de dades. L'experimentador té 2 tipus de configuració: Senzill i avançat. Les dues configuracions permeten als usuaris executar experiments localment i en equips remots.
- El botó 'Obre' i 'Nou' obrirà una nova finestra d'experiment que els usuaris poden fer.
- Resultats: Definiu el fitxer de destinació del resultat des del fitxer ARFF, JDFC i CSV.
- Tipus d'experiment: L'usuari pot triar entre la validació creuada i el percentatge de tren / prova dividit. L'usuari pot triar entre classificació i regressió segons el conjunt de dades i el classificador utilitzat.
- Conjunts de dades: L'usuari pot navegar i seleccionar conjunts de dades des d'aquí. Es fa clic a la casella de selecció del camí d'accés relatiu si es treballa en màquines diferents. El format dels conjunts de dades admesos és ARFF, C4.5, CSV, libsvm, bsi i XRFF.
- Iteració: El número d'iteració per defecte s'estableix en 10. Conjunts de dades primer i els algoritmes primer ajuden a canviar entre el conjunt de dades i els algorismes perquè els algorismes es puguin executar en tots els conjunts de dades.
- Algorismes: Els 'nous botons' afegeixen nous algoritmes. L'usuari pot triar un classificador.
- Deseu l’experiment mitjançant el botó Desa.
- Executeu l'experiment amb el botó Executa.
# 4) Flux de coneixement
El flux de coneixement mostra una representació gràfica d’algoritmes WEKA. L'usuari pot seleccionar els components i crear un flux de treball per analitzar els conjunts de dades. Les dades es poden gestionar per lots o de manera incremental. Es poden dissenyar fluxos de treball paral·lels i cadascun s'executarà en un fil separat.
Els diferents components disponibles són Fonts de dades, estalviadors de dades, filtres, classificadors, clústers, avaluació i visualització.
# 5) Banc de treball
WEKA té un mòdul de banc de treball que conté totes les interfícies gràfiques en una sola finestra.
Característiques de WEKA Explorer
# 1) Conjunt de dades
Un conjunt de dades està format per elements. Representa un objecte per exemple: a la base de dades de màrqueting, representarà els clients i els productes. Els conjunts de dades es descriuen per atributs. El conjunt de dades conté tuples de dades en una base de dades. Un conjunt de dades té atributs que poden ser nominals, numèrics o de cadena. A Weka, el conjunt de dades està representat per weka.core.Instances classe.
Representació del conjunt de dades amb 5 exemples:
@dades
assolellat, FALS, 85,85, núm
assolellat, CERT, 80,90, núm
ennuvolat, FALS, 83,86, sí
plujós, FALS, 70,96, sí
plujós, FALS, 68,80, sí
Què és un atribut?
Un atribut és un camp de dades que representa la característica d'un objecte de dades. Per exemple, en una base de dades de clients, els atributs seran customer_id, customer_email, customer_address, etc. Els atributs tenen diferents tipus.
Aquests possibles tipus són:
A) Atributs nominals: Atribut relacionat amb un nom i que té valors predefinits com el color i el temps. Aquests atributs s’anomenen atributs categòrics . Aquests atributs no tenen cap ordre i els seus valors també s’anomenen enumeracions.
@attribute outlook {assolellat, cobert, plujós}: declaració de l'atribut nominal.
B) Atributs binaris: Aquests atributs només representen els valors 0 i 1. Aquests són el tipus d’atributs nominals amb només 2 categories. Aquests atributs també s’anomenen booleans.
C) Atributs ordinaris: Els atributs que conserven algun ordre o rànquing entre ells són atributs ordinaris. No es poden predir successius valors, però només es manté l’ordre. Exemple: mida, grau, etc.
D) Atributs numèrics: Els atributs que representen quantitats mesurables són atributs numèrics. Es representen mitjançant nombres reals o enters. Exemple: temperatura, humitat.
@ atribut humitat real: declaració d'un atribut numèric
E) Atributs de la cadena: Aquests atributs representen una llista de caràcters representats entre cometes dobles.
# 2) Format de dades ARFF
WEKA treballa al fitxer ARFF per a l'anàlisi de dades. ARFF significa Atribute Relation File Format. Té 3 seccions: relació, atributs i dades. Totes les seccions comencen per '@'.
Els fitxers ARFF prenen atributs de dades Nominal, Numeric, String, Date i Relational. Alguns dels coneguts conjunts de dades d’aprenentatge automàtic estan presents a WEKA com a ARFF.
El format per a ARFF és:
@relació
@ atribut
@dades
Un exemple de fitxer ARFF és:
@relation weather @attribute outlook {sunny, overcast, rainy}: @attribute temperature real @attribute humidity real @attribute windy {TRUE, FALSE} @attribute play {yes, no} //class attribute: The class attribute represents the output. @data sunny, FALSE,85,85,no sunny, TRUE,80,90,no overcast, FALSE,83,86,yes rainy, FALSE,70,96,yes rainy, FALSE,68,80,yes
# 3) Format de dades XRFF
XRFF significa l'atribut XML Format de fitxer de relació. Representa dades que poden emmagatzemar comentaris, atributs i pesos d’instàncies. Té l'extensió .xrff i l'extensió de fitxer .xrff.gz (format comprimit). Els fitxers XRFF representaven dades en format XML.
# 4) Connectivitat a la base de dades
Amb WEKA, és fàcil connectar-se a una base de dades mitjançant un controlador JDBC. El controlador JDBC és necessari per connectar-se a la base de dades, exemple:
MS SQL Server (com.microsoft.jdbc.sqlserver.SQLServerDriver)
Oracle (oracle.jdbc.driver.OracleDriver)
# 5) Classificadors
Per predir les dades de sortida, WEKA conté classificadors. Els algoritmes de classificació disponibles per a l’aprenentatge són arbres de decisions, màquines vectorials de suport, classificadors basats en instàncies i regressió logística i xarxes bayesianes. Depenent del requisit que utilitzi la prova i prova, l'usuari pot trobar un algorisme adequat per a l'anàlisi de dades. Els classificadors s’utilitzen per classificar els conjunts de dades en funció de les característiques dels atributs.
# 6) Agrupació
WEKA utilitza la pestanya Clúster per predir les similituds del conjunt de dades. Basat en el clúster, l'usuari pot esbrinar els atributs útils per a l'anàlisi i ignorar altres atributs. Els algorismes disponibles per agrupar a WEKA són k-means, EM, Cobweb, X-means i FarhtestFirst.
# 7) Associació
L’únic algorisme disponible a WEKA per esbrinar regles d’associació és Apriori.
# 8) Mesures de la secció d’atributs
WEKA utilitza 2 enfocaments per a la millor selecció d'atributs a efectes de càlcul:
- Utilitzant l'algorisme del mètode de cerca: Best-first, selecció directa, aleatori, exhaustiu, algorisme genètic i algorisme de classificació.
- Utilitzant algorismes de mètode d’avaluació: Basat en correlació, embolcall, guany d'informació, chi quadrat.
# 9) Visualització
WEKA admet la representació 2D de dades, visualitzacions 3D amb rotació i representació 1D d’un atribut únic. Té l'opció 'Jitter' per a atributs nominals i punts de dades 'ocults'.
Altres característiques principals de WEKA són:
- És una eina de codi obert amb interfície gràfica d'usuari en forma d ''Explorador', 'Experimentador' i 'Flux de coneixement'.
- És independent de la plataforma.
- Conté 49 eines de preprocessament de dades.
- 76 algorismes de classificació i regressió, 8 algorismes de clusterització estan presents a WEKA
- Té 15 algorismes de selecció d’atributs i 10 algorismes de selecció de característiques.
- Té 3 algoritmes per trobar regles d’associació.
- Mitjançant WEKA, els usuaris poden desenvolupar codi personalitzat per a l’aprenentatge automàtic.
Conclusió
En aquest tutorial WEKA, hem proporcionat una introducció al programari d'aprenentatge automàtic WEKA de codi obert i hem explicat el procés d'instal·lació i descàrrega pas a pas. També hem vist les cinc opcions disponibles per a la interfície d'usuari gràfica de Weka, a saber, Explorer, Experimenter, Flux de coneixement, Workbench i Simple CLI.
També hem conegut les característiques de WEKA amb exemples. Les funcions inclouen conjunt de dades, format de dades ARFF, connectivitat a la base de dades, etc.
=> Visiteu aquí la sèrie exclusiva d’aprenentatge automàtic
Lectura recomanada
- Conjunt de dades WEKA, classificador i algorisme J48 per a l'arbre de decisions
- Explorador WEKA: visualització, agrupació, mineria de regles d’associació
- 11 eines de programari d'aprenentatge automàtic més populars el 2021
- Una guia completa sobre xarxes neuronals artificials en aprenentatge automàtic
- Mineria de dades contra aprenentatge automàtic contra intel·ligència artificial contra aprenentatge profund
- Tutorial d'aprenentatge automàtic: Introducció a ML i les seves aplicacions
- Les 13 millors empreses d'aprenentatge automàtic (Llista actualitzada 2021)
- Què és la màquina vectorial de suport (SVM) en l'aprenentatge automàtic