KDD vs mineria de dades
KDD (Knowledge Discovery in Databases) és un camp de la informàtica, que inclou les eines i les teories per ajudar els humans a extreure informació útil i fins ara desconeguda (és a dir, coneixement) de grans col·leccions de dades digitalitzades. KDD consta de diversos passos, i la mineria de dades és un d'ells. La mineria de dades és l'aplicació d'un algorisme específic per extreure patrons de dades. No obstant això, KDD i Data Mining s'utilitzen indistintament.
Què és KDD?
Com s'ha esmentat anteriorment, KDD és un camp de la informàtica, que s'ocupa de l'extracció d'informació desconeguda i interessant a partir de dades en brut. KDD és tot el procés d'intentar donar sentit a les dades mitjançant el desenvolupament de mètodes o tècniques adequats. Aquest procés tracta de mapejar dades de baix nivell en altres formes més compactes, abstractes i útils. Això s'aconsegueix creant informes breus, modelant el procés de generació de dades i desenvolupant models predictius que poden predir casos futurs. A causa del creixement exponencial de les dades, especialment en àrees com els negocis, KDD s'ha convertit en un procés molt important per convertir aquesta gran riquesa de dades en intel·ligència empresarial, ja que l'extracció manual de patrons s'ha tornat aparentment impossible en les últimes dècades. Per exemple, actualment s'utilitza per a diverses aplicacions com ara anàlisi de xarxes socials, detecció de fraus, ciència, inversió, fabricació, telecomunicacions, neteja de dades, esports, recuperació d'informació i, en gran part, per al màrqueting. Normalment, KDD s'utilitza per respondre preguntes com quins són els principals productes que poden ajudar a obtenir beneficis elevats l'any vinent a Wal-Mart?. Aquest procés té diversos passos. Comença per desenvolupar una comprensió del domini de l'aplicació i l'objectiu i després crear un conjunt de dades objectiu. A continuació, la neteja, el preprocessament, la reducció i la projecció de dades. El següent pas és utilitzar Data Mining (que s'explica a continuació) per identificar el patró. Finalment, el coneixement descobert es consolida mitjançant la visualització i/o interpretació.
Què és la mineria de dades?
Com s'ha esmentat anteriorment, la mineria de dades és només un pas dins del procés general de KDD. Hi ha dos objectius principals de Data Mining, tal com els defineix l'objectiu de l'aplicació, i són la verificació o el descobriment. La verificació és verificar la hipòtesi de l'usuari sobre les dades, mentre que el descobriment és trobar automàticament patrons interessants. Hi ha quatre tasques principals de mineria de dades: agrupació, classificació, regressió i associació (resum). El clúster és identificar grups similars a partir de dades no estructurades. La classificació és regles d'aprenentatge que es poden aplicar a dades noves. La regressió és trobar funcions amb un error mínim per modelar les dades. I l'associació és buscar relacions entre variables. Aleshores, cal seleccionar l'algoritme específic de mineria de dades. En funció de l'objectiu, es poden seleccionar diferents algorismes com ara regressió lineal, regressió logística, arbres de decisió i Naïve Bayes. A continuació, es cerquen patrons d'interès en una o més formes de representació. Finalment, els models s'avaluen mitjançant la precisió predictiva o la comprensió.
Quina diferència hi ha entre KDD i Data mining?
Tot i que els dos termes KDD i Data Mining s'utilitzen molt de manera intercanviable, es refereixen a dos conceptes relacionats però lleugerament diferents. KDD és el procés global d'extracció de coneixement de les dades, mentre que la mineria de dades és un pas dins del procés KDD, que s'ocupa d'identificar patrons a les dades. En altres paraules, la mineria de dades és només l'aplicació d'un algorisme específic basat en l'objectiu general del procés KDD.