La diferència clau entre la classificació i l'arbre de regressió és que a la classificació les variables dependents són categòriques i no ordenades, mentre que a la regressió les variables dependents són valors sencers continus o ordenats.
La classificació i la regressió són tècniques d'aprenentatge per crear models de predicció a partir de les dades recopilades. Ambdues tècniques es presenten gràficament com a arbres de classificació i regressió, o més aviat diagrames de flux amb divisions de dades després de cada pas, o millor dit, "ramificació" a l'arbre. Aquest procés s'anomena partició recursiva. Camps com la mineria utilitza aquestes tècniques d'aprenentatge de classificació i regressió. Aquest article se centra en l'arbre de classificació i l'arbre de regressió.
Què és la classificació?
La classificació és una tècnica utilitzada per arribar a un esquema que mostra l'organització de les dades començant per una variable precursora. Les variables dependents són les que classifiquen les dades.
Figura 01: mineria de dades
L'arbre de classificació comença amb la variable independent, que es ramifica en dos grups segons determinen les variables dependents existents. Pretén dilucidar les respostes en forma de categorització provocada per les variables dependents.
Què és la regressió
La regressió és un mètode de predicció que es basa en un valor de sortida numèric assumit o conegut. Aquest valor de sortida és el resultat d'una sèrie de particions recursives, amb cada pas amb un valor numèric i un altre grup de variables dependents que es ramifiquen a un altre parell com aquest.
L'arbre de regressió comença amb una o més variables precursores i acaba amb una variable de sortida final. Les variables dependents són variables numèriques contínues o discretes.
Quina diferència hi ha entre la classificació i la regressió?
Classificació versus regressió |
|
Un model d'arbre on la variable objectiu pot prendre un conjunt discret de valors. | Un model d'arbre on la variable objectiu pot prendre valors continus, normalment nombres reals. |
Variable dependent | |
Per a l'arbre de classificació, les variables dependents són categòriques. | Per a l'arbre de regressió, les variables dependents són numèriques. |
Valors | |
Té una quantitat determinada de valors no ordenats. | Té valors discrets però ordenats o bé valors indiscrets. |
Propòsit de la construcció | |
L'objectiu de la construcció de l'arbre de regressió és ajustar un sistema de regressió a cada branca determinant de manera que aparegui el valor de sortida esperat. | Un arbre de classificació es ramifica segons determina una variable dependent derivada del node anterior. |
Resum: classificació versus regressió
Els arbres de regressió i classificació són tècniques útils per traçar el procés que apunta a un resultat estudiat, ja sigui en classificació o en un únic valor numèric. La diferència entre l'arbre de classificació i l'arbre de regressió és la seva variable dependent. Els arbres de classificació tenen variables dependents que són categòriques i no ordenades. Els arbres de regressió tenen variables dependents que són valors continus o valors sencers ordenats.