data mining process
Aquest tutorial detallat sobre mineria de dades explica què és la mineria de dades, inclosos els processos i les tècniques utilitzades per a l'anàlisi de dades:
Entenguem el significat del terme mineria prenent l’exemple de la mineria d’or de les roques, que s’anomena mineria d’or. Aquí el més útil és 'Or', per això s'anomena mineria d'or.
De la mateixa manera, treure informació útil d'una gran quantitat de dades s'anomena mineria de coneixement i se la coneix popularment com a mineria de dades. Amb el terme informació útil, designem les dades que ens poden ajudar a predir una sortida.
Per exemple, trobar les tendències d’adquirir una cosa determinada (per exemple, ferro) per un grup d’edat concret ( Exemple: 40-70 anys).
=>DESPLAÇA CAP AVALLper veure la llista completa de 7 tutorials d'aprofundiment en mineria de dades per a principiants
Què aprendreu:
Preguntes i respostes de l'entrevista de desenvolupadors sql
- Llista de tutorials sobre mineria de dades
- Visió general dels tutorials d'aquesta sèrie de mineria de dades
- Què és la mineria de dades?
- Quins tipus de dades es poden extreure?
- Quines tècniques s’utilitzen en la mineria de dades?
- Problemes principals en l'anàlisi de dades
- Conclusió
Llista de tutorials sobre mineria de dades
Tutorial # 1: Mineria de dades: procés, tècniques i grans qüestions en l’anàlisi de dades (Aquest tutorial)
Tutorial # 2: Tècniques de mineria de dades: algorisme, mètodes i eines principals de mineria de dades
Tutorial # 3: Procés de mineria de dades: models, passos de procés i reptes implicats
Tutorial # 4: Exemples de mineria de dades: aplicacions més habituals de mineria de dades 2019
Tutorial # 5: Exemples d'algorisme de l'arbre de decisions en mineria de dades
Tutorial # 6: Algorisme Apriori en mineria de dades: implementació amb exemples
Tutorial # 7: Algorisme de creixement del patró freqüent (FP) a la mineria de dades
Visió general dels tutorials d'aquesta sèrie de mineria de dades
tutorial # | Què aprendràs |
---|---|
Tutorial_ # 7: | Algorisme de creixement del patró freqüent (FP) a la mineria de dades Aquest és un tutorial detallat sobre l'algorisme de creixement de patrons freqüents que representa la base de dades en forma d'un arbre FP. FP Growth Vs Apriori Comparation també s’explica aquí. |
Tutorial_ # 1: | Mineria de dades: procés, tècniques i grans qüestions en l’anàlisi de dades Aquest tutorial detallat sobre mineria de dades explica què és la mineria de dades, inclosos els processos i les tècniques que s’utilitzen per a l’anàlisi de dades. |
Tutorial_ # 2: | Tècniques de mineria de dades: algorisme, mètodes i eines principals de mineria de dades Aquest tutorial sobre tècniques de mineria de dades explica algorismes, eines de mineria de dades i mètodes per extreure dades útils. |
Tutorial_ # 3: | Procés de mineria de dades: models, passos de procés i reptes implicats Aquest tutorial sobre el procés de mineria de dades inclou models, passos i reptes de mineria de dades implicats en el procés d'extracció de dades. |
Tutorial_ # 4: | Exemples de mineria de dades: aplicacions més habituals de mineria de dades 2019 En aquest tutorial s’expliquen els exemples més populars de mineria de dades de la vida real. Coneixerà més sobre aplicacions de mineria de dades en finances, màrqueting, salut i CRM. |
Tutorial_ # 5: | Exemples d'algorisme de l'arbre de decisions en mineria de dades Aquest tutorial en profunditat explica tot sobre l'algorisme de l'arbre de decisions en mineria de dades. Coneixerà els exemples, l'algorisme i la classificació de l'arbre de decisions. |
Tutorial_ # 6: | Algorisme Apriori en mineria de dades: implementació amb exemples Aquest és un tutorial senzill sobre l'algorisme Apriori per esbrinar conjunts d'elements freqüents a la mineria de dades. També coneixereu els passos d’Apriori i comprendreu com funciona. |
Què és la mineria de dades?
La mineria de dades té molta demanda avui en dia, ja que ajuda les empreses a estudiar com poden augmentar les vendes dels seus productes. Ho podem entendre amb un exemple de botiga de moda, que registrarà cadascun dels seus clients que comprin un article a la seva botiga.
A partir de les dades proporcionades pel client, com ara edat, sexe, grup d’ingressos, professió, etc., la botiga podrà esbrinar quin tipus de clients compren diferents productes. Aquí podem veure que el nom del client no serveix de res, ja que no podem predir la tendència de compra per nom de si aquella persona comprarà un determinat producte o no.
Així, la informació útil es pot trobar mitjançant el grup d'edat, el gènere, el grup d'ingressos, la professió, etc. La cerca de coneixement o patró interessant a les dades és 'Data Mining'. Altres termes que es poden utilitzar al lloc són: Mineria de coneixement a partir de dades, Extracció de coneixement, Anàlisi de dades, Anàlisi de patrons, etc.
Un altre terme que s’utilitza popularment a la mineria de dades és Discovery Knowledge de Data o KDD.
Procés d’anàlisi de dades
El procés de descobriment del coneixement és una seqüència dels passos següents:
- Neteja de dades: Aquest pas elimina el soroll i les dades inconsistents de les dades d'entrada.
- Integració de dades: Aquest pas combina diverses fonts de dades. La neteja de dades i la integració de dades es combinen per formar el preprocessament de les dades. Les dades processades prèviament s’emmagatzemen al magatzem de dades.
- Selecció de dades: Aquests passos seleccionen les dades de la tasca d'anàlisi de la base de dades.
- Transformació de dades: En aquest pas, s’apliquen diverses tècniques d’agregació i resum de dades per transformar les dades en un formulari útil per a la mineria.
- Mineria de dades: En aquest pas, s’extreuen patrons de dades aplicant mètodes intel·ligents.
- Avaluació de patrons: Els patrons de dades extrets s’avaluen i es reconeixen segons les mesures d’interessància.
- Representació del coneixement: S’utilitzen tècniques de visualització i representació del coneixement per presentar el coneixement extret als usuaris.
Els passos 1 a 4 passen per l'etapa de preprocessament de dades. Aquí, la mineria de dades es representa com un sol pas, però es refereix a tot el procés de descoberta de coneixement.
Així, podem dir, que l’anàlisi de dades és el procés de descobrir patrons i coneixements interessants a partir d’una gran quantitat de dades. Les fonts de dades poden incloure bases de dades, magatzems de dades, World Wide Web, fitxers plans i altres fitxers informatius.
Quins tipus de dades es poden extreure?
Les formes més bàsiques de dades per a la mineria són les dades de les bases de dades, les dades del magatzem de dades i les dades transaccionals. Les tècniques de mineria de dades també es poden aplicar a altres formes com fluxos de dades, dades seqüenciades, dades de text i dades espacials.
# 1) Dades de la base de dades: El sistema de gestió de bases de dades és un conjunt de dades interrelacionades i un conjunt de programes per gestionar i accedir a les dades. El sistema de bases de dades relacionals és una col·lecció de taules i cada taula consta d’un conjunt d’atributs i tuples.
algorisme d'arbre de decisions en la mineria de dades
La mineria de bases de dades relacionals cerca les tendències i patrons de dades Per exemple . risc de crèdit dels clients segons l'edat, els ingressos i el risc de crèdit anterior. A més, la mineria pot esbrinar desviacions de les esperades Per exemple. un augment significatiu del preu d’un article.
# 2) Dades del magatzem de dades: Un magatzem de dades és un recull d’informació recopilada de diverses fonts de dades, emmagatzemada sota un esquema unificat en un sol lloc. Un DW es modelitza com una estructura de dades multidimensional anomenada cub de dades amb cel·les i dimensions que proporciona una precomputació i un accés més ràpid a les dades.
La mineria de dades es realitza en un estil OLAP combinant les dimensions a diferents nivells de granularitat.
# 3) Dades transaccionals: Les dades transaccionals capturen una transacció. Té un identificador de transacció i una llista d’elements utilitzats en la transacció.
# 4) Altres tipus de dades: Altres dades poden incloure: dades relacionades amb el temps, dades espacials, dades d’hipertext i dades multimèdia.
Quines tècniques s’utilitzen en la mineria de dades?
La mineria de dades és un domini altament basat en aplicacions. Moltes tècniques com ara estadístiques, aprenentatge automàtic, reconeixement de patrons, recuperació d’informació, visualització, etc., influeixen en el desenvolupament de mètodes d’anàlisi de dades.
Anem a comentar-ne alguns aquí !!
Estadístiques
L'estudi de la recopilació, anàlisi, interpretació i presentació de dades es pot fer mitjançant models estadístics. Per exemple , es poden utilitzar estadístiques per modelar el soroll i les dades que falten i, després, aquest model es pot utilitzar en un conjunt de dades gran per identificar el soroll i els valors que falten a les dades.
Aprenentatge automàtic
ML s’utilitza per millorar el rendiment basat en dades. L’àrea principal de recerca és que els programes d’ordinador aprenguin automàticament a reconèixer patrons complexos i a prendre decisions intel·ligents basades en les dades.
L’aprenentatge automàtic se centra en la precisió i la mineria de dades se centra en l’eficiència i l’escalabilitat dels mètodes de mineria en el conjunt de dades gran, dades complexes, etc.
L’aprenentatge automàtic és de tres tipus:
- Aprenentatge supervisat: Es coneix el conjunt de dades objectiu i la màquina es forma segons els valors objectiu.
- Aprenentatge sense supervisió: No es coneixen els valors objectiu i les màquines aprenen per si soles.
- Aprenentatge semi-supervisat: Utilitza tant les tècniques d’aprenentatge supervisat com no supervisat.
Recuperació d’informació (IR)
És la ciència de cercar documents o informació en documents.
Utilitza dos principis:
- Les dades que cal cercar no estan estructurades.
- Les consultes estan formades principalment per paraules clau.
Mitjançant l’ús de l’anàlisi de dades i l’IR, podem trobar temes importants en la col·lecció de documents i també els temes principals que intervenen en cada document.
Problemes principals en l'anàlisi de dades
La mineria de dades té una sèrie de problemes relacionats, tal com s’esmenta a continuació:
Metodologia Minera
- Com que hi ha diverses aplicacions, continuen sorgint noves tasques de mineria. Aquestes tasques poden utilitzar la mateixa base de dades de maneres diferents i requereixen el desenvolupament de noves tècniques de mineria de dades.
- Mentre cerquem coneixement en grans conjunts de dades, hem d’explorar l’espai multidimensional. Per trobar patrons interessants, cal aplicar diverses combinacions de dimensions.
- De vegades, dades incertes, sorolloses i incompletes poden provocar derivacions errònies.
Interacció de l'usuari
- El procés d’anàlisi de dades hauria de ser altament interactiu. És important per facilitar que el procés de mineria sigui interactiu amb l'usuari.
- Els coneixements de domini, coneixements bàsics, restriccions, etc., s’han d’incorporar al procés d’explotació de dades.
- El coneixement descobert en l'explotació de les dades hauria de ser útil per als humans. El sistema ha d’adoptar una representació expressiva del coneixement, tècniques de visualització fàcils d’utilitzar, etc.
Eficiència i escalabilitat
- Els algoritmes de mineria de dades haurien de ser eficients i escalables per extreure de manera efectiva dades interessants d’una gran quantitat de dades als dipòsits de dades.
- Una àmplia distribució de dades, la complexitat en el càlcul motiva el desenvolupament d’algoritmes intensius en dades paral·leles i distribuïdes.
Diversitat de tipus de bases de dades
- La construcció d’eines d’anàlisi de dades eficaços i eficients per a diverses aplicacions, un ampli espectre de tipus de dades a partir de dades no estructurades, dades temporals, hipertext, dades multimèdia i codi de programari de programari continua sent un àmbit de recerca actiu i desafiant.
Impacte social
- La divulgació per utilitzar les dades i la possible violació de la privadesa individual i la protecció dels drets són els àmbits de preocupació que cal abordar.
Conclusió
La mineria de dades ajuda en la presa de decisions i l’anàlisi d’una gran quantitat de dades. Avui en dia és la tècnica comercial més comuna. Permet l’anàlisi automàtic de dades i identifica tendències i comportaments populars.
L'anàlisi de dades es pot combinar amb l'aprenentatge automàtic, estadístiques, intel·ligència artificial, etc., per a l'anàlisi avançada de dades i l'estudi del comportament.
La mineria de dades s’hauria d’aplicar tenint en compte diversos factors, com ara el cost d’extreure informació i el patró de les bases de dades (s’han d’aplicar algoritmes complexos que requereixen recursos experts), el tipus d’informació (ja que les dades històriques poden no ser el mateix que el que són) actualment, de manera que l’anàlisi no serà útil).
Esperem aquest tutorial enriquit el vostre coneixement del concepte de Data Mining !!
Lectura recomanada
- 10 millors eines d'anàlisi de dades per a una gestió perfecta de les dades (LLISTA 2021)
- Mineria de dades contra aprenentatge automàtic contra intel·ligència artificial contra aprenentatge profund
- 10 millors eines de mapatge de dades útils en el procés ETL (LLISTA 2021)
- Què són les dades de prova? Proveu tècniques de preparació de dades amb exemple
- Parametrizació de dades de JMeter mitjançant variables definides per l'usuari
- Top 15 de les millors eines gratuïtes de mineria de dades: la llista més completa
- 10+ millors eines de recopilació de dades amb estratègies de recopilació de dades
- Funció de pool de dades a IBM Rational Quality Manager per a la gestió de dades de proves