La diferència clau entre agrupació i classificació és que la agrupació és una tècnica d'aprenentatge no supervisat que agrupa instàncies similars en funció de les característiques, mentre que la classificació és una tècnica d'aprenentatge supervisat que assigna etiquetes predefinides a instàncies en funció de les característiques.
Tot i que l'agrupació i la classificació semblen ser processos similars, hi ha una diferència entre ells segons el seu significat. En el món de la mineria de dades, la agrupació i la classificació són dos tipus de mètodes d'aprenentatge. Ambdós mètodes caracteritzen els objectes en grups per una o més característiques.
Què és l'agrupació?
La agrupació és un mètode d'agrupació d'objectes de tal manera que els objectes amb característiques similars s'uneixen i els objectes amb característiques diferents es desparteixen. És una tècnica comuna per a l'anàlisi de dades estadístiques per a l'aprenentatge automàtic i la mineria de dades. L'anàlisi i la generalització de dades exploratòries també és una àrea que utilitza agrupacions.
Figura 01: agrupació
La agrupació en clúster pertany a la mineria de dades no supervisada. No és un únic algorisme específic, sinó que és un mètode general per resoldre una tasca. Per tant, és possible aconseguir l'agrupament mitjançant diversos algorismes. L'algorisme de clúster i la configuració de paràmetres adequats depenen dels conjunts de dades individuals. No és una tasca automàtica, sinó que és un procés iteratiu de descobriment. Per tant, cal modificar el processament de dades i la modelització de paràmetres fins que el resultat assoleixi les propietats desitjades. La agrupació K-means i la agrupació jeràrquica són dos algorismes de agrupació habituals en la mineria de dades.
Què és la classificació?
La classificació és un procés de categorització que utilitza un conjunt de dades d'entrenament per reconèixer, diferenciar i entendre objectes. La classificació és una tècnica d'aprenentatge supervisat on hi ha disponible un conjunt d'entrenament i observacions definides correctament.
Figura 02: Classificació
L'algorisme que implementa la classificació és el classificador mentre que les observacions són les instàncies. L'algorisme K-Nearest Neighbor i els algorismes de l'arbre de decisió són els algorismes de classificació més famosos de la mineria de dades.
Quina diferència hi ha entre l'agrupació i la classificació?
La agrupació és un aprenentatge no supervisat mentre que la classificació és una tècnica d'aprenentatge supervisat. Agrupa instàncies similars en funció de les característiques, mentre que la classificació assigna etiquetes predefinides a les instàncies en funció de les característiques. La agrupació va dividir el conjunt de dades en subconjunts per agrupar les instàncies amb característiques similars. No utilitza dades etiquetades ni un conjunt d'entrenament. D' altra banda, categoritzar les noves dades segons les observacions del conjunt d'entrenament. El conjunt d'entrenament està etiquetat.
L'objectiu de l'agrupació és agrupar un conjunt d'objectes per trobar si hi ha alguna relació entre ells, mentre que la classificació pretén trobar a quina classe pertany un nou objecte del conjunt de classes predefinides.
Resum – Agrupació vs classificació
La agrupació i la classificació poden semblar similars perquè ambdós algorismes de mineria de dades divideixen el conjunt de dades en subconjunts, però són dues tècniques d'aprenentatge diferents, en mineria de dades per obtenir informació fiable d'una col·lecció de dades en brut. La diferència entre agrupació i classificació és que la agrupació és una tècnica d'aprenentatge no supervisat que agrupa instàncies similars en funció de les característiques, mentre que la classificació és una tècnica d'aprenentatge supervisat que assigna etiquetes predefinides a les instàncies en funció de les característiques.
Imatge cortesia:
1.”Cluster-2″ de Cluster-2.gif: treball derivat de l'hellisp: (Domini públic) a través de Wikimedia Commons 2.”Magnetism” de John Aplessed – Treball propi. (Domini públic) a través de Wikimedia Commons