data mining techniques
Aquest tutorial en profunditat sobre tècniques de mineria de dades explica algorismes, eines de mineria de dades i mètodes per extreure dades útils:
En aquest Tutorials de formació en mineria de dades en profunditat per a tothom , vam explorar tot sobre mineria de dades al nostre tutorial anterior.
En aquest tutorial, coneixerem les diverses tècniques utilitzades per a l'extracció de dades. Com sabem que l'explotació de dades és un concepte d'extreure informació útil de la gran quantitat de dades, algunes tècniques i mètodes s'apliquen a grans conjunts de dades per extreure informació útil.
Aquestes tècniques es presenten bàsicament en forma de mètodes i algorismes aplicats als conjunts de dades. Algunes de les tècniques de mineria de dades inclouen Mineria de patrons freqüents, associacions i correlacions, classificacions, agrupació, detecció de valors atípics i algunes tècniques avançades com la mineria de dades estadístiques, visuals i d'àudio.
En general, les tècniques de mineria de dades s’utilitzen bases de dades relacionals, bases de dades transaccionals i magatzems de dades. No obstant això, també hi ha algunes tècniques avançades de mineria de dades complexes com ara sèries temporals, seqüències simbòliques i dades seqüencials biològiques.
Què aprendreu:
- Finalitat de les tècniques de mineria de dades
- Llista de tècniques d’extracció de dades
- Principals algorismes de mineria de dades
- Mètodes d’extracció de dades
- Principals eines de mineria de dades
- Conclusió
- Lectura recomanada
Finalitat de les tècniques de mineria de dades
Amb una gran quantitat de dades emmagatzemades cada dia, ara les empreses estan interessades a esbrinar-ne les tendències. Les tècniques d’extracció de dades ajuden a convertir les dades en brut en coneixements útils. Per obtenir grans quantitats de dades, es requereix el programari, ja que és impossible per a un humà passar manualment el gran volum de dades.
Un programari de mineria de dades analitza la relació entre diferents elements de grans bases de dades que poden ajudar en el procés de presa de decisions, obtenir més informació sobre els clients, elaborar estratègies de màrqueting, augmentar les vendes i reduir els costos.
Llista de tècniques d’extracció de dades
La tècnica de mineria de dades que s’ha d’aplicar depèn de la perspectiva de l’anàlisi de dades.
Així doncs, analitzem les diverses tècniques de com es pot realitzar l'extracció de dades de diferents maneres:
# 1) Mineria de patrons freqüents / Anàlisi d'associació
Aquest tipus de tècnica de mineria de dades busca relacions recurrents en el conjunt de dades donat. Cercarà associacions i correlacions interessants entre els diferents elements de la base de dades i identificarà un patró.
Un exemple, d'aquest tipus, seria 'Anàlisi de la cistella de la compra': esbrinar 'quins productes és probable que els clients comprin junts a la botiga?' com el pa i la mantega.
Sol·licitud: Dissenyar la col·locació dels productes a les prestatgeries de les botigues, la comercialització i la venda creuada de productes.
Els patrons es poden representar en forma de regles d'associació. La norma de l'associació diu que el suport i la confiança són els paràmetres per esbrinar la utilitat dels elements associats. Les transaccions que havien comprat tots dos articles junts d'una sola vegada es coneix com a suport.
Les transaccions en què els clients van comprar els dos articles però un darrere l’altre són confiança. El patró extret es consideraria interessant si té un llindar mínim de suport i llindar mínim de confiança valor. Els valors llindars els decideixen els experts del domini.
Pa => mantega (suport = 2%, confiança-60%)
L'afirmació anterior és un exemple d'una regla d'associació. Això significa que hi ha una transacció del 2% que va comprar pa i mantega junts i que hi ha un 60% de clients que van comprar pa i mantega.
Passos per implementar l'anàlisi d'associació:
- Cerca de conjunts d’elements freqüents. Conjunt d’elements significa un conjunt d’elements. Un conjunt d’elements que conté k elements és un k-itemset. La freqüència d’un conjunt d’elements és el nombre de transaccions que contenen l’element.
- Generant regles d’associació sòlides a partir dels conjunts d’elements freqüents. Per regles d’associació sòlides, volem dir que es compleix el llindar mínim de suport i confiança.
Hi ha diversos mètodes de mineria de conjunts d’elements freqüents com l’Algoritme d’Apriori, l’enfocament de creixement de patrons i la mineria mitjançant el format de dades verticals. Aquesta tècnica es coneix comunament com a Market Basket Analysis.
# 2) Anàlisi de correlació
L’anàlisi de correlació és només una extensió de les normes de l’associació. De vegades, els paràmetres de suport i confiança poden generar patrons poc interessants per als usuaris.
Un exemple que dóna suport a la declaració anterior pot ser: de les 1.000 transaccions analitzades, 600 contenien només pa, mentre que 750 contenien mantega i 400 contenien tant pa com mantega. Suposem que el suport mínim per a l'execució de regles d'associació és del 30% i la confiança mínima és del 60%.
El valor d'assistència de 400/1000 = 40% i el valor de confiança = 400/600 = 66% compleixen el llindar. Tot i això, veiem que la probabilitat de comprar mantega és del 75%, que supera el 66%. Això significa que el pa i la mantega es correlacionen negativament, ja que la compra d'un comportaria una disminució de la compra de l'altra. Els resultats són enganyosos.
A partir de l’exemple anterior, el suport i la confiança es complementen amb una altra mesura d’interessantitat, és a dir, anàlisi de correlació que ajudarà a la mineria de patrons interessants.
A => B (suport, confiança, correlació).
La regla de correlació es mesura mitjançant el suport, la confiança i la correlació entre els conjunts d’elements A i B. La correlació es mesura per Lift i Chi-Square.
(Aixeco: Com diu la pròpia paraula, Lift representa el grau en què la presència d'un conjunt d'elements augmenta l'aparició d'altres conjunts d'elements.
L'elevació entre l'aparició d'A i B es pot mesurar mitjançant:
Elevació (A, B) = P (A U B) / P (A). P (B).
Si és<1, then A and B are negatively correlated.
Si és> 1. Aleshores A i B es correlacionen positivament, cosa que significa que l'aparició d'un implica l'aparició de l'altre.
Si és = 1, no hi ha correlació entre ells.
(ii) Chi-Square: Aquesta és una altra mesura de correlació. Mesura la diferència quadrada entre el valor observat i esperat per a una ranura (parell A i B) dividit pel valor esperat.
Si és> 1, es correlaciona negativament.
quina és la clau de seguretat d'un encaminador
# 3) Classificació
La classificació ajuda a crear models de classes de dades importants. Es construeix un model o un classificador per predir les etiquetes de classe. Les etiquetes són les classes definides amb valors discrets com 'sí' o 'no', 'segur' o 'arriscat'. És un tipus d’aprenentatge supervisat, ja que ja es coneix la classe d’etiquetes.
La classificació de dades és un procés en dos passos:
- Pas d'aprenentatge: Aquí es construeix el model. S’aplica un algorisme predefinit a les dades per analitzar amb una etiqueta de classe proporcionada i es construeixen les regles de classificació.
- Pas de classificació: El model s’utilitza per predir etiquetes de classe per a dades donades. La precisió de les regles de classificació s’estima mitjançant les dades de les proves que, si es troben exactes, s’utilitzen per a la classificació de noves tuples de dades.
Els elements del conjunt d’elements s’assignaran a les categories de destinació per predir funcions a nivell d’etiqueta de classe.
Sol·licitud: Els bancs identifiquen els sol·licitants de préstecs com a risc baix, mitjà o alt, empreses que dissenyen campanyes de màrqueting en funció de la classificació per grups d’edat. '
# 4) Inducció de l'arbre de decisions
El mètode d’inducció d’arbres de decisió s’inclou a l’Anàlisi de classificació. Un arbre de decisions és una estructura semblant a un arbre que és fàcil d’entendre, senzilla i ràpida. En això, cada node que no és de fulla representa una prova d’un atribut i cada branca representa el resultat de la prova, i el node de fulla representa l’etiqueta de classe.
Els valors dels atributs en una tupla es comproven amb l'arbre de decisions des de l'arrel fins al node de fulla. Els arbres de decisió són populars ja que no requereixen cap coneixement del domini. Aquests poden representar dades multidimensionals. Els arbres de decisió es poden convertir fàcilment en regles de classificació.
Sol·licitud: Els arbres de decisió es construeixen en medicina, fabricació, producció, astronomia, etc. A continuació es pot veure un exemple:
# 5) Classificació de Bayes
La classificació bayesiana és un altre mètode d’anàlisi de classificació. Els classificadors de Bayes prediuen la probabilitat que una determinada tupla pertanyi a una classe particular. Es basa en el teorema de Bayes, que es basa en la teoria de la probabilitat i la decisió.
La classificació de Bayes treballa sobre la probabilitat posterior i la probabilitat prèvia per al procés de presa de decisions. Per probabilitat posterior, la hipòtesi es fa a partir de la informació donada, és a dir, es coneixen els valors dels atributs, mentre que per a la probabilitat prèvia, les hipòtesis es donen independentment dels valors dels atributs.
# 6) Anàlisi de clústers
És una tècnica per particionar un conjunt de dades en clústers o grups d’objectes. L’agrupació es fa mitjançant algoritmes. És un tipus d’aprenentatge sense supervisió, ja que no es coneix la informació de l’etiqueta. Els mètodes d’agrupació identifiquen dades similars o diferents entre si i es fa l’anàlisi de les característiques.
L'anàlisi de clústers es pot utilitzar com a pas previ per aplicar diversos altres algoritmes com la caracterització, la selecció de subconjunts d'atributs, etc. L'anàlisi de clústers també es pot utilitzar per a la detecció de valors aterrats, com ara compres elevades en transaccions amb targeta de crèdit.
Aplicacions: Reconeixement d’imatges, cerca web i seguretat.
# 7) Detecció atípica
El procés de trobar objectes de dades que tenen un comportament excepcional dels altres objectes s’anomena detecció atípica. La detecció externa i l’anàlisi de clústers estan relacionats entre si. Els mètodes extraordinaris es classifiquen en estadístiques, basades en la proximitat, basades en agrupacions i basades en la classificació.
Hi ha diferents tipus de valors atípics, alguns d’ells són:
- Global Outlier: L'objecte de dades s'ha desviat significativament de la resta del conjunt de dades.
- Resum contextual: Depèn de determinats factors com el dia, l’hora i la ubicació. Si un objecte de dades es desvia significativament en referència a un context.
- Resolució col·lectiva: Quan un grup d'objectes de dades té un comportament diferent del conjunt de dades.
Sol·licitud: Detecció de riscos de frau de targetes de crèdit, detecció de novetats, etc.
# 8) Patrons seqüencials
Es reconeix una tendència o alguns patrons consistents en aquest tipus de mineria de dades. Les botigues utilitzen la comprensió del comportament de compra dels clients i dels patrons seqüencials per mostrar els seus productes a les prestatgeries.
Sol·licitud: Exemple de comerç electrònic en què quan compreu l’article A, es mostrarà que l’article B es compra sovint amb l’article A que analitza l’historial de compres anterior.
# 9) Anàlisi de regressió
Aquest tipus d’anàlisi es supervisa i identifica quins conjunts d’elements entre les diferents relacions estan relacionats o són independents els uns dels altres. Pot predir vendes, beneficis, temperatura, predir el comportament humà, etc. Té un valor de conjunt de dades que ja se sap.
Quan es proporciona una entrada, l'algorisme de regressió compararà l'entrada i el valor esperat, i l'error es calcula per obtenir el resultat precís.
Sol·licitud: Comparació d’esforços en màrqueting i desenvolupament de productes.
Principals algorismes de mineria de dades
Les tècniques de mineria de dades s’apliquen a través dels algoritmes que hi ha darrere. Aquests algoritmes s'executen amb el programari d'extracció de dades i s'apliquen en funció de les necessitats empresarials.
A continuació es defineixen alguns dels algoritmes que les organitzacions utilitzen àmpliament per analitzar els conjunts de dades:
- K significa: És una tècnica popular d’anàlisi de clústers on s’agrupa un grup d’elements similars.
- Algorisme Apriori: És una tècnica freqüent de mineria d’elements i s’hi apliquen regles d’associació en bases de dades transaccionals. Detectarà conjunts d’elements freqüents i ressaltarà tendències generals.
- K Veí més proper: Aquest mètode s’utilitza per a l’anàlisi de classificació i regressió. El k veí més proper és un aprenent mandrós on emmagatzema les dades de formació i, quan arriben noves dades sense etiquetar, classificarà les dades d’entrada.
- Naus Bayes: És un grup d'algorismes de classificació probabilística senzills que assumeixen que les característiques de cada objecte de dades són independents de les altres. És una aplicació del teorema de Bayes.
- AdaBoost: És un meta-algorisme d’aprenentatge automàtic que s’utilitza per millorar el rendiment. Adaboost és sensible a dades sorolloses i atípiques.
Mètodes d’extracció de dades
A continuació s’expliquen alguns mètodes avançats de mineria de dades per gestionar tipus de dades complexes.
Les dades del món actual són de diversos tipus, des de dades senzilles fins a dades complexes. Per explotar tipus de dades complexos, com ara sèries temporals, dades multidimensionals, espacials i multimèdia, es necessiten algoritmes i tècniques avançades.
Alguns d'ells es descriuen a continuació:
- Feu CLIC: Va ser el primer mètode d’agrupació per trobar els clústers en un subespai multidimensional.
- P3C: És un mètode de clúster conegut per a dades multidimensionals de moderades a altes.
- LLAC: És un mètode basat en els mitjans k dirigit a agrupar dades de dimensionalitat de moderada a alta. L'algoritme particiona les dades en k conjunt d'elements disjunts, eliminant els possibles valors atípics.
- RICLE: És un algorisme de concentració de correlacions, que detecta correlacions lineals i no lineals.
Principals eines de mineria de dades
Les eines de mineria de dades són un programari utilitzat per extraure dades. Les eines executen algoritmes al dorsal. Aquestes eines estan disponibles al mercat com a codi obert, programari lliure i versió amb llicència.
Algunes de les eines d'extracció de dades inclouen:
# 1) RapidMiner
RapidMiner és una plataforma de programari de codi obert per a equips d’anàlisi que uneix la preparació de dades, l’aprenentatge automàtic i el desplegament de models predictius. Aquesta eina s’utilitza per realitzar anàlisis de mineria de dades i crear models de dades. Té grans conjunts per a algorismes de classificació, agrupació, mineria de regles d’associació i regressió.
# 2) Taronja
És una eina de codi obert que conté paquets de visualització i anàlisi de dades. El taronja es pot importar a qualsevol entorn python que funcioni. És molt adequat per a nous investigadors i petits projectes.
# 3) IDIOMA
KEEL (extracció de coneixement basada en l’aprenentatge evolutiu) és un codi obert ( GPLv3 ) Eina de programari Java que es pot utilitzar per a un gran nombre de tasques diferents de descobriment de dades de coneixement.
# 4) SPSS
IBM SPSS Modeler és una aplicació de programari de mineria de dades i d’anàlisi de text d’IBM. S'utilitza per construir models predictius i realitzar altres tasques analítiques.
# 5) KNIME
És una eina lliure i de codi obert que conté paquets de neteja i anàlisi de dades, algoritmes especialitzats en les àrees d’anàlisi de sentiments i anàlisi de xarxes socials. KNIME pot integrar dades de diverses fonts en una mateixa anàlisi. Té una interfície amb programació Java, Python i R.
Pregunta important: en què es diferencia la classificació de la predicció?
La classificació és una agrupació de dades. L’exemple de classificació és agrupar segons el grup d’edat, la condició mèdica, etc. Mentre que la predicció es deriva un resultat mitjançant les dades classificades.
Un exemple de l’anàlisi predictiu és predir els interessos en funció del grup d’edat, el tractament d’una malaltia. La predicció també es coneix com a estimació de valors continus.
Terme important: mineria de dades predictiva
La mineria predictiva de dades es fa per predir o predir determinades tendències de dades mitjançant intel·ligència empresarial i altres dades. Ajuda les empreses a tenir millors analítiques i prendre millors decisions. L’anàlisi predictiva sovint es combina amb la mineria de dades predictiva.
La mineria predictiu de dades troba les dades rellevants per analitzar. L’anàlisi predictiva utilitza dades per predir el resultat.
Conclusió
En aquest tutorial, hem debatut sobre les diverses tècniques de mineria de dades que poden ajudar les organitzacions i les empreses a trobar la informació més útil i rellevant. Aquesta informació s’utilitza per crear models que prediuin el comportament dels clients perquè les empreses hi actuïn.
diferències entre c ++ i c
Llegint tota la informació esmentada sobre les tècniques de mineria de dades, es pot determinar encara millor la seva credibilitat i viabilitat. Les tècniques d’extracció de dades inclouen treballar amb dades, tornar a formatar les dades, reestructurar les dades. El format de la informació necessària es basa en la tècnica i l’anàlisi a fer.
Finalment, totes les tècniques, mètodes i sistemes de mineria de dades ajuden al descobriment de noves innovacions creatives.
Lectura recomanada
- Mineria de dades: procés, tècniques i grans qüestions en l’anàlisi de dades
- 10 millors eines de modelatge de dades per gestionar dissenys complexos
- Top 15 de les millors eines gratuïtes de mineria de dades: la llista més completa
- 10+ millors eines de recopilació de dades amb estratègies de recopilació de dades
- Top 10 eines de disseny de bases de dades per crear models de dades complexos
- 10+ millors eines de governança de dades per satisfer les vostres necessitats de dades el 2021
- Mineria de dades contra aprenentatge automàtic contra intel·ligència artificial contra aprenentatge profund
- Les 14 millors eines de gestió de dades de proves del 2021