La differenza fondamentale tra clustering e classificazione è che il clustering è una tecnica di apprendimento non supervisionato che raggruppa istanze simili sulla base di caratteristiche mentre la classificazione è una tecnica di apprendimento supervisionato che assegna tag predefiniti alle istanze sulla base di caratteristiche.
Sebbene il raggruppamento e la classificazione sembrino processi simili, c'è una differenza tra loro in base al loro significato. Nel mondo del data mining, il clustering e la classificazione sono due tipi di metodi di apprendimento. Entrambi questi metodi caratterizzano gli oggetti in gruppi in base a una o più caratteristiche.
CONTENUTI
1. Panoramica e differenza fondamentale
2. Che cos'è il clustering
3. Che cos'è la classificazione
4. Confronto affiancato - Clustering vs classificazione in forma tabulare
5. Riepilogo
Cos'è il clustering?
Il raggruppamento è un metodo per raggruppare gli oggetti in modo tale che oggetti con caratteristiche simili si uniscano e gli oggetti con caratteristiche dissimili vadano a pezzi. È una tecnica comune per l'analisi statistica dei dati per l'apprendimento automatico e il data mining. Anche l'analisi esplorativa e la generalizzazione dei dati è un'area che utilizza il clustering.
Figura 01: clustering
Il clustering appartiene al data mining non supervisionato. Non è un singolo algoritmo specifico, ma è un metodo generale per risolvere un'attività. Pertanto, è possibile ottenere il clustering utilizzando vari algoritmi. L'algoritmo del cluster appropriato e le impostazioni dei parametri dipendono dai singoli set di dati. Non è un'attività automatica, ma è un processo iterativo di scoperta. Pertanto, è necessario modificare l'elaborazione dei dati e la modellazione dei parametri finché il risultato non raggiunge le proprietà desiderate. Il clustering K-means e il clustering gerarchico sono due algoritmi di clustering comuni nel data mining.
Cos'è la classificazione?
La classificazione è un processo di categorizzazione che utilizza un insieme di dati di addestramento per riconoscere, differenziare e comprendere gli oggetti. La classificazione è una tecnica di apprendimento supervisionato in cui sono disponibili un set di formazione e osservazioni correttamente definite.
Figura 02: classificazione
L'algoritmo che implementa la classificazione è il classificatore mentre le osservazioni sono le istanze. L'algoritmo K-Nearest Neighbor e gli algoritmi dell'albero decisionale sono gli algoritmi di classificazione più famosi nel data mining.
Qual è la differenza tra raggruppamento e classificazione?
Il clustering è un apprendimento non supervisionato mentre la classificazione è una tecnica di apprendimento supervisionato. Raggruppa istanze simili sulla base delle caratteristiche mentre la classificazione assegna tag predefiniti alle istanze sulla base delle caratteristiche. Il clustering suddivide il set di dati in sottoinsiemi per raggruppare le istanze con caratteristiche simili. Non utilizza dati etichettati o un set di addestramento. D'altra parte, categorizzare i nuovi dati in base alle osservazioni dell'insieme di addestramento. Il set di addestramento è etichettato.
L'obiettivo del clustering è raggruppare un insieme di oggetti per scoprire se esiste qualche relazione tra di loro, mentre la classificazione mira a trovare a quale classe appartiene un nuovo oggetto dall'insieme di classi predefinite.
Riepilogo: raggruppamento e classificazione
Il clustering e la classificazione possono sembrare simili perché entrambi gli algoritmi di data mining dividono il set di dati in sottoinsiemi, ma sono due diverse tecniche di apprendimento, nel data mining per ottenere informazioni affidabili da una raccolta di dati grezzi. La differenza tra clustering e classificazione è che il clustering è una tecnica di apprendimento senza supervisione che raggruppa istanze simili sulla base di caratteristiche mentre la classificazione è una tecnica di apprendimento supervisionato che assegna tag predefiniti alle istanze sulla base di caratteristiche.
Cortesia dell'immagine:
1. "Cluster-2" di Cluster-2.gif: lavoro derivato da hellisp: (Public Domain) tramite Wikimedia Commons 2. "Magnetism" di John Aplessed - Opera propria. (Dominio pubblico) tramite Wikimedia Commons