Diferència entre l'agrupament jeràrquic i el clúster parcial

Diferència entre l'agrupament jeràrquic i el clúster parcial
Diferència entre l'agrupament jeràrquic i el clúster parcial

Vídeo: Diferència entre l'agrupament jeràrquic i el clúster parcial

Vídeo: Diferència entre l'agrupament jeràrquic i el clúster parcial
Vídeo: Соединенные Штаты и английский видео измерение для детей: английский язык песни 2024, De novembre
Anonim

Clúster jeràrquic vs particional

Clustering és una tècnica d'aprenentatge automàtic per analitzar dades i dividir-les en grups de dades similars. Aquests grups o conjunts de dades similars es coneixen com a clústers. L'anàlisi de clúster analitza els algorismes de clúster que poden identificar els clústers automàticament. Jeràrquic i Particional són dues classes d'algorismes d'agrupació. Els algorismes de clúster jeràrquic divideixen les dades en una jerarquia de clústers. Els algorismes paricionals divideixen el conjunt de dades en particions mútuament separades.

Què és l'agrupació jeràrquica?

Els algorismes d'agrupament jeràrquic repeteixen el cicle de fusionar clústers més petits amb els més grans o dividir els clústers més grans en els més petits. De qualsevol manera, produeix una jerarquia de clústers anomenada dendograma. L'estratègia d'aglomeració aglomerativa utilitza l'enfocament de baix a d alt de la fusió de clústers amb d' altres més grans, mentre que l'estratègia de agrupació divisiva utilitza l'enfocament de d alt a baix de dividir-ne en més petits. Normalment, l'enfocament cobdiciós s'utilitza per decidir quins grups més grans/petits s'utilitzen per fusionar/dividir. La distància euclidiana, la distància de Manhattan i la similitud del cosinus són algunes de les mètriques de semblança més utilitzades per a dades numèriques. Per a dades no numèriques, s'utilitzen mètriques com ara la distància de Hamming. És important tenir en compte que les observacions reals (instàncies) no són necessàries per a l'agrupació jeràrquica, perquè només la matriu de distàncies és suficient. El dendograma és una representació visual dels clústers, que mostra la jerarquia de manera molt clara. L'usuari pot obtenir diferents agrupacions en funció del nivell en què es talla el dendograma.

Què és l'agrupament parcial?

Els algorismes de agrupació particional generen diverses particions i després les avaluen segons algun criteri. També es coneixen com a no jeràrquics, ja que cada instància es col·loca exactament en un dels k grups mútuament exclusius. Com que només un conjunt de clústers és la sortida d'un algorisme de agrupació particional típic, l'usuari ha d'introduir el nombre desitjat de clústers (normalment anomenats k). Un dels algorismes de agrupació particional més utilitzats és l'algoritme de agrupació k-means. L'usuari ha de proporcionar el nombre de clústers (k) abans de començar i l'algoritme inicia primer els centres (o centroides) de les k particions. En poques paraules, l'algorisme de agrupació k-means assigna membres en funció dels centres actuals i torna a estimar els centres en funció dels membres actuals. Aquests dos passos es repeteixen fins que s'optimitzen una determinada funció objectiu de semblança intra-clúster i una funció objectiu de dissimilaritat entre clúster. Per tant, la inicialització racional dels centres és un factor molt important per obtenir resultats de qualitat a partir d'algorismes de agrupació particional.

Quina diferència hi ha entre l'agrupament jeràrquic i el clúster parcial?

El clúster jeràrquic i parcial té diferències clau en el temps d'execució, els supòsits, els paràmetres d'entrada i els clústers resultants. Normalment, la agrupació en clúster parcial és més ràpida que la agrupació jeràrquica. La agrupació jeràrquica només requereix una mesura de similitud, mentre que la agrupació particional requereix hipòtesis més sòlides, com ara el nombre de clústers i els centres inicials. La agrupació jeràrquica no requereix cap paràmetre d'entrada, mentre que els algorismes de clúster particional requereixen el nombre de clústers per començar a executar-se. La agrupació jeràrquica retorna una divisió de clústers molt més significativa i subjectiva, però la agrupació particional dóna lloc exactament a k clústers. Els algorismes de agrupació jeràrquica són més adequats per a dades categòriques sempre que es pugui definir una mesura de similitud en conseqüència.

Recomanat: