data mining process models
Aquest tutorial sobre el procés de mineria de dades inclou models, passos i reptes de mineria de dades implicats en el procés d'extracció de dades:
Tècniques de mineria de dades es van explicar detalladament en el nostre tutorial anterior Formació completa sobre mineria de dades per a tothom . La mineria de dades és un camp prometedor al món de la ciència i la tecnologia.
La mineria de dades, que també es coneix com a descobriment del coneixement a les bases de dades, és un procés per descobrir informació útil a partir de grans volums de dades emmagatzemades a bases de dades i magatzems de dades. Aquesta anàlisi es realitza per a processos de presa de decisions a les empreses.
La mineria de dades es realitza mitjançant diverses tècniques com ara l’agrupació, l’associació i l’anàlisi de patrons seqüencials i l’arbre de decisions.
Què aprendreu:
- Què és la mineria de dades?
- Extracció de dades com a procés
- Models de mineria de dades
- Passos del procés de mineria de dades
- Procés de mineria de dades al SGBD d’Oracle
- Procés de mineria de dades a Datawarehouse
- Quines són les aplicacions d'extracció de dades?
- Reptes de mineria de dades
- Conclusió
- Lectura recomanada
Què és la mineria de dades?
La mineria de dades és un procés per descobrir patrons i coneixements interessants a partir de grans quantitats de dades. Les fonts de dades poden incloure bases de dades, magatzems de dades, el web i altres dipòsits d'informació o dades que es transmeten al sistema de manera dinàmica.
Per què les empreses necessiten l'extracció de dades?
Amb l’aparició del Big Data, la mineria de dades ha esdevingut més freqüent. Les dades massives són conjunts de dades extremadament grans que els ordinadors poden analitzar per revelar determinats patrons, associacions i tendències que els humans poden comprendre. El Big Data conté informació extensa sobre diversos tipus i contingut variat.
Així, amb aquesta quantitat de dades, les estadístiques simples amb intervenció manual no funcionarien. Aquesta necessitat es compleix amb el procés de mineria de dades. Això condueix a un canvi de simples estadístiques de dades a algorismes complexos de mineria de dades.
El procés de mineria de dades extreurà informació rellevant de dades en brut, com ara transaccions, fotos, vídeos, fitxers plans i processarà automàticament la informació per generar informes útils perquè les empreses prenguin mesures.
Per tant, el procés de mineria de dades és crucial perquè les empreses prenguin millors decisions descobrint patrons i tendències en les dades, resumint les dades i traient informació rellevant.
Extracció de dades com a procés
Qualsevol problema empresarial examinarà les dades brutes per crear un model que descrigui la informació i traurà els informes que utilitzarà l'empresa. Construir un model a partir de fonts de dades i formats de dades és un procés iteratiu, ja que les dades brutes estan disponibles en diverses fonts i formes.
Les dades augmenten dia a dia, per tant, quan es troba una nova font de dades, pot canviar els resultats.
A continuació es mostra l’esquema del procés.
(imatge font )
Models de mineria de dades
Moltes indústries com la fabricació, el màrqueting, la química i l'aeroespacial aprofiten la mineria de dades. Així, la demanda de processos de mineria de dades estàndard i fiables augmenta dràsticament.
Els models importants de mineria de dades inclouen:
# 1) Procés estàndard entre indústries per a l'explotació de dades (CRISP-DM)
CRISP-DM és un model fiable de mineria de dades que consta de sis fases. És un procés cíclic que proporciona un enfocament estructurat al procés de mineria de dades. Les sis fases es poden implementar en qualsevol ordre, però de vegades requeririen retrocedir als passos anteriors i repetir les accions.
com escriure casos de proves manuals
Les sis fases de CRISP-DM inclouen:
# 1) Comprensió empresarial: En aquest pas, es fixen els objectius de les empreses i es descobreixen els factors importants que ajudaran a assolir l'objectiu.
# 2) Comprensió de dades: Aquest pas recopilarà totes les dades i omplirà les dades a l'eina (si utilitzeu alguna eina). Les dades s’enumeren amb la seva font de dades, ubicació, com s’adquireixen i si es produeix algun problema. Les dades es visualitzen i es consulten per comprovar-ne la exhaustivitat.
# 3) Preparació de dades: Aquest pas implica seleccionar les dades adequades, netejar-les, construir atributs a partir de dades, integrar dades de diverses bases de dades.
# 4) Modelatge: En aquest pas es fa la selecció de la tècnica de mineria de dades, com ara l’arbre de decisions, generar el disseny de proves per avaluar el model seleccionat, construir models a partir del conjunt de dades i avaluar el model construït amb experts per discutir el resultat.
# 5) Avaluació: Aquest pas determinarà el grau en què el model resultant compleix els requisits empresarials. L’avaluació es pot fer provant el model en aplicacions reals. El model es revisa si hi ha errors o passos que s’haurien de repetir.
# 6) Desplegament: En aquest pas es fa un pla de desplegament, es forma una estratègia per controlar i mantenir els resultats del model de mineria de dades per comprovar-ne la utilitat, es fan informes finals i es fa la revisió de tot el procés per comprovar qualsevol error i veure si es repeteix algun pas. .
(imatge font )
# 2) SEMMA (mostra, explora, modifica, modela, avalua)
SEMMA és una altra metodologia de mineria de dades desenvolupada per SAS Institute. L'acrònim SEMMA significa mostrejar, explorar, modificar, modelar, avaluar.
SEMMA facilita l’aplicació de tècniques estadístiques i de visualització exploratòries, seleccionar i transformar les variables predites significatives, crear un model amb les variables per obtenir el resultat i comprovar-ne la precisió. SEMMA també està impulsat per un cicle altament iteratiu.
Passos a SEMMA
- Mostra: En aquest pas, s'extreu un gran conjunt de dades i es treu una mostra que representa les dades completes. El mostreig reduirà els costos computacionals i el temps de processament.
- Explora: Les dades s’exploren per a qualsevol valor anormal i anomalies per a una millor comprensió de les dades. Les dades es comproven visualment per conèixer les tendències i els agrupaments.
- Modifica: En aquest pas, la manipulació de dades, com ara l’agrupament i el subgrupament, es fa mantenint el model que es vol construir.
- Model: Basant-se en les exploracions i modificacions, es construeixen els models que expliquen els patrons de les dades.
- Avaluar: La utilitat i la fiabilitat del model construït s’avaluen en aquest pas. Aquí es fa la prova del model amb dades reals.
Tant l'enfocament SEMMA com el CRISP treballen per al procés de descobriment del coneixement. Un cop es construeixen els models, es desplegen per a empreses i treballs de recerca.
Passos del procés de mineria de dades
El procés de mineria de dades es divideix en dues parts, és a dir, el processament de dades i la mineria de dades. El processament previ de dades implica neteja de dades, integració de dades, reducció de dades i transformació de dades. La part de mineria de dades realitza mineria de dades, avaluació de patrons i representació de coneixement de les dades.
(imatge font )
Per què pre-processem les dades?
Hi ha molts factors que determinen la utilitat de les dades, com ara precisió, integritat, coherència i actualitat. Les dades han de ser de qualitat si compleixen la finalitat prevista. Per tant, el preprocessament és crucial en el procés de mineria de dades. A continuació s’expliquen els principals passos relacionats amb el processament previ de dades.
# 1) Neteja de dades
La neteja de dades és el primer pas en la mineria de dades. Té importància, ja que les dades brutes si s’utilitzen directament a la mineria poden causar confusió en els procediments i produir resultats inexactes.
Bàsicament, aquest pas implica l'eliminació de dades sorolloses o incompletes de la col·lecció. Hi ha molts mètodes que generalment netegen les dades per si mateixos, però no són robustos.
Aquest pas realitza les tasques de neteja rutinàries mitjançant:
(i) Empleneu les dades que falten:
Les dades que falten es poden omplir mitjançant mètodes com:
- Ignorant la tupla.
- Emplenant manualment el valor que falta.
- Utilitzeu la mesura de tendència central, mediana o
- Emplenament del valor més probable.
(ii) Eliminar les dades sorolloses: L’error aleatori s’anomena dades sorolloses.
Els mètodes per eliminar el soroll són:
identificació intel·ligent en qtp amb exemple
Binning: Els mètodes d’acumulació s’apliquen ordenant els valors en dipòsits o contenidors. L'allisament es realitza consultant els valors veïns.
El binning es realitza suavitzant per bin, és a dir, cada safata es reemplaça per la mitjana del contenidor. Suavitzat per una mediana, on cada valor de bin es reemplaça per una mitjana de bin. Suavitzar els límits de la safata, és a dir, els valors mínim i màxim de la safata són els límits de la safata i cada valor de la safata se substitueix pel valor de la frontera més proper.
- Identificar els valors atípics
- Resoldre incongruències
# 2) Integració de dades
Quan es combinen diverses fonts de dades heterogènies com ara bases de dades, cubs de dades o fitxers per analitzar-les, aquest procés s’anomena integració de dades. Això pot ajudar a millorar la precisió i la rapidesa del procés de mineria de dades.
Les diferents bases de dades tenen diferents convencions de denominació de variables, ja que provoquen redundàncies a les bases de dades. Es pot realitzar una neteja de dades addicionals per eliminar les redundàncies i les inconsistències de la integració de dades sense afectar la fiabilitat de les dades.
La integració de dades es pot realitzar mitjançant eines de migració de dades, com ara Oracle Data Service Integrator i Microsoft SQL, etc.
# 3) Reducció de dades
Aquesta tècnica s'aplica per obtenir dades rellevants per a l'anàlisi a partir de la recopilació de dades. La mida de la representació és molt menor en volum, mantenint la integritat. La reducció de dades es realitza mitjançant mètodes com Naive Bayes, arbres de decisió, xarxa neuronal, etc.
Algunes estratègies de reducció de dades són:
- Reducció de la dimensió: Reducció del nombre d’atributs al conjunt de dades.
- Reducció de la numerositat: Substitució del volum de dades original per formes més petites de representació de dades.
- Compressió de dades: Representació comprimida de les dades originals.
# 4) Transformació de dades
En aquest procés, les dades es transformen en un formulari adequat per al procés de mineria de dades. Les dades es consoliden de manera que el procés de mineria sigui més eficient i els patrons siguin més fàcils d’entendre. La transformació de dades implica mapes de dades i procés de generació de codi.
Les estratègies per a la transformació de dades són:
- Suavitzat: Eliminació del soroll de les dades mitjançant agrupacions, tècniques de regressió, etc.
- Agregació: Les operacions de resum s'apliquen a les dades.
- Normalització: L’escalat de les dades es troba dins d’un rang més reduït.
- Discretització: Els valors bruts de les dades numèriques se substitueixen per intervals. Per exemple, Edat.
# 5) Mineria de dades
La mineria de dades és un procés per identificar patrons i coneixements interessants a partir d’una gran quantitat de dades. En aquests passos, s'apliquen patrons intel·ligents per extreure els patrons de dades. Les dades es representen en forma de patrons i els models s’estructuren mitjançant tècniques de classificació i agrupació.
# 6) Avaluació de patrons
Aquest pas consisteix a identificar patrons interessants que representen el coneixement basat en mesures d’interessància. Els mètodes de resum i visualització de dades s’utilitzen per fer que les dades siguin comprensibles per l’usuari.
# 7) Representació del coneixement
La representació del coneixement és un pas on s’utilitzen eines de visualització de dades i representació del coneixement per representar les dades extretes. Les dades es visualitzen en forma d'informes, taules, etc.
Procés de mineria de dades al SGBD d’Oracle
RDBMS representa les dades en forma de taules amb files i columnes. Es pot accedir a les dades escrivint consultes de bases de dades.
millors llocs web per veure anime doblats
Els sistemes de gestió de bases de dades relacionals com Oracle donen suport a la mineria de dades mitjançant CRISP-DM. Les instal·lacions de la base de dades Oracle són útils per a la preparació i comprensió de dades. Oracle admet la mineria de dades mitjançant la interfície java, la interfície PL / SQL, la mineria de dades automatitzada, les funcions SQL i les interfícies gràfiques d'usuari.
Procés de mineria de dades a Datawarehouse
Es modelitza un magatzem de dades per a una estructura de dades multidimensional anomenada cub de dades. Cada cel·la d'un cub de dades emmagatzema el valor d'algunes mesures agregades.
La mineria de dades en espais multidimensionals es duu a terme a l’estil OLAP (Online Analytical Processing) on permet explorar múltiples combinacions de dimensions a diferents nivells de granularitat.
Quines són les aplicacions d'extracció de dades?
La llista d’àrees on s’utilitza àmpliament la mineria de dades inclou:
# 1) Anàlisi de dades financeres: La mineria de dades s’utilitza àmpliament en banca, inversió, serveis de crèdit, hipoteca, préstecs per a automòbils i serveis d’assegurances i inversions en accions. Les dades recopilades d’aquestes fonts són completes, fiables i d’alta qualitat. Això facilita l’anàlisi sistemàtica de dades i l’explotació de dades.
# 2) Indústries minoristes i de telecomunicacions: El sector minorista recopila grans quantitats de dades sobre vendes, historial de compres dels clients, transport de mercaderies, consum i servei. La mineria de dades al detall ajuda a identificar els comportaments de compra, els patrons de compra i les tendències dels clients, a millorar la qualitat del servei al client, una millor retenció i satisfacció.
# 3) Ciència i enginyeria: La informàtica i l'enginyeria de mineria de dades poden ajudar a controlar l'estat del sistema, millorar el rendiment del sistema, aïllar errors de programari, detectar plagis de programari i reconèixer els mal funcionaments del sistema.
# 4) Detecció i prevenció d’intrusos: La intrusió es defineix com qualsevol conjunt d’accions que amenacen la integritat, la confidencialitat o la disponibilitat dels recursos de la xarxa. Els mètodes de mineria de dades poden ajudar al sistema de detecció i prevenció d’intrusos per millorar el seu rendiment.
# 5) Sistemes de recomanacions: Els sistemes de recomanació ajuden els consumidors fent recomanacions sobre productes que siguin d’interès per als usuaris.
Reptes de mineria de dades
A continuació, es detallen els diferents reptes relacionats amb la mineria de dades.
- La mineria de dades necessita grans bases de dades i recopilació de dades difícils de gestionar.
- El procés de mineria de dades requereix experts en dominis que de nou són difícils de trobar.
- La integració a partir de bases de dades heterogènies és un procés complex.
- Cal modificar les pràctiques a nivell organitzatiu per utilitzar els resultats de mineria de dades. Reestructurar el procés requereix esforç i cost.
Conclusió
La mineria de dades és un procés iteratiu on es pot refinar el procés de mineria i es poden integrar noves dades per obtenir resultats més eficients. La mineria de dades compleix el requisit d’anàlisi de dades eficaç, escalable i flexible.
Es pot considerar com una avaluació natural de les tecnologies de la informació. Com a procés de descobriment de coneixement, les tasques de preparació de dades i mineria de dades completen el procés de mineria de dades.
Els processos de mineria de dades es poden realitzar en qualsevol tipus de dades, com ara dades de bases de dades i bases de dades avançades, com ara sèries temporals, etc. El procés de mineria de dades també presenta els seus propis desafiaments.
Estigueu atent al nostre proper tutorial per obtenir més informació sobre els exemples de mineria de dades.
Lectura recomanada
- Mineria de dades: procés, tècniques i grans qüestions en l’anàlisi de dades
- Tècniques de mineria de dades: algorisme, mètodes i eines principals de mineria de dades
- 10 millors eines de mapatge de dades útils en el procés ETL (LLISTA 2021)
- Top 10 eines de disseny de bases de dades per crear models de dades complexos
- Mineria de dades contra aprenentatge automàtic contra intel·ligència artificial contra aprenentatge profund
- Top 15 de les millors eines gratuïtes de mineria de dades: la llista més completa
- Concepte, procés i estratègia de gestió de dades de proves
- Parametrizació de dades de JMeter mitjançant variables definides per l'usuari