KDD vs data mining
KDD (Knowledge Discovery in Databases) è un campo dell'informatica, che include gli strumenti e le teorie per aiutare gli esseri umani a estrarre informazioni utili e precedentemente sconosciute (cioè conoscenza) da grandi raccolte di dati digitalizzati. KDD consiste in diversi passaggi e il data mining è uno di questi. Il Data Mining è l'applicazione di uno specifico algoritmo per estrarre modelli dai dati. Tuttavia, KDD e Data Mining vengono utilizzati in modo intercambiabile.
Cos'è KDD?
Come accennato in precedenza, KDD è un campo dell'informatica, che si occupa dell'estrazione di informazioni precedentemente sconosciute e interessanti da dati grezzi. KDD è l'intero processo per cercare di dare un senso ai dati sviluppando metodi o tecniche appropriati. Questo processo si occupa della mappatura dei dati di basso livello in altre forme più compatte, astratte e utili. Ciò si ottiene creando brevi report, modellando il processo di generazione dei dati e sviluppando modelli predittivi in grado di prevedere casi futuri. A causa della crescita esponenziale dei dati, specialmente in aree come il business, KDD è diventato un processo molto importante per convertire questa grande ricchezza di dati in business intelligence, poiché l'estrazione manuale dei modelli è diventata apparentemente impossibile negli ultimi decenni. Per esempio,è attualmente utilizzato per varie applicazioni come analisi di social network, rilevamento di frodi, scienza, investimenti, produzione, telecomunicazioni, pulizia dei dati, sport, recupero di informazioni e in gran parte per il marketing. KDD viene solitamente utilizzato per rispondere a domande come quali sono i principali prodotti che potrebbero aiutare a ottenere un alto profitto il prossimo anno in Wal-Mart ?. Questo processo ha diversi passaggi. Inizia con lo sviluppo di una comprensione del dominio dell'applicazione e dell'obiettivo e quindi con la creazione di un set di dati di destinazione. Segue pulizia, preelaborazione, riduzione e proiezione dei dati. Il passaggio successivo consiste nell'utilizzare il data mining (spiegato di seguito) per identificare il pattern. Infine, la conoscenza scoperta si consolida visualizzando e / o interpretando.sport, reperimento di informazioni e soprattutto per il marketing. KDD viene solitamente utilizzato per rispondere a domande come quali sono i principali prodotti che potrebbero aiutare a ottenere un alto profitto il prossimo anno in Wal-Mart ?. Questo processo ha diversi passaggi. Inizia con lo sviluppo di una comprensione del dominio dell'applicazione e dell'obiettivo e quindi con la creazione di un set di dati di destinazione. Questo è seguito da pulizia, preelaborazione, riduzione e proiezione dei dati. Il passaggio successivo consiste nell'utilizzare il data mining (spiegato di seguito) per identificare il pattern. Infine, la conoscenza scoperta si consolida visualizzando e / o interpretando.sport, reperimento di informazioni e soprattutto per il marketing. KDD viene solitamente utilizzato per rispondere a domande come quali sono i principali prodotti che potrebbero aiutare a ottenere un alto profitto il prossimo anno in Wal-Mart ?. Questo processo ha diversi passaggi. Inizia con lo sviluppo di una comprensione del dominio dell'applicazione e dell'obiettivo e quindi con la creazione di un set di dati di destinazione. Questo è seguito da pulizia, preelaborazione, riduzione e proiezione dei dati. Il passaggio successivo consiste nell'utilizzare il data mining (spiegato di seguito) per identificare il pattern. Infine, la conoscenza scoperta si consolida visualizzando e / o interpretando. Inizia con lo sviluppo di una comprensione del dominio dell'applicazione e dell'obiettivo e quindi con la creazione di un set di dati di destinazione. Segue pulizia, preelaborazione, riduzione e proiezione dei dati. Il passaggio successivo consiste nell'utilizzare il data mining (spiegato di seguito) per identificare il pattern. Infine, la conoscenza scoperta si consolida visualizzando e / o interpretando. Inizia con lo sviluppo di una comprensione del dominio dell'applicazione e dell'obiettivo e quindi con la creazione di un set di dati di destinazione. Questo è seguito da pulizia, preelaborazione, riduzione e proiezione dei dati. Il passaggio successivo consiste nell'utilizzare il data mining (spiegato di seguito) per identificare il pattern. Infine, la conoscenza scoperta si consolida visualizzando e / o interpretando.
Cos'è il data mining?
Come accennato in precedenza, il data mining è solo un passaggio all'interno del processo KDD complessivo. Esistono due principali obiettivi di data mining definiti dall'obiettivo dell'applicazione, ovvero la verifica o la scoperta. La verifica verifica l'ipotesi dell'utente sui dati, mentre la scoperta trova automaticamente modelli interessanti. Esistono quattro attività di data mining principali: clustering, classificazione, regressione e associazione (riepilogo). Il clustering sta identificando gruppi simili da dati non strutturati. La classificazione è regole di apprendimento che possono essere applicate a nuovi dati. La regressione è trovare funzioni con un errore minimo per modellare i dati. E l'associazione cerca relazioni tra variabili. Quindi, è necessario selezionare l'algoritmo di data mining specifico. A seconda dell'obiettivo, diversi algoritmi come la regressione lineare, la regressione logistica,È possibile selezionare alberi decisionali e Naïve Bayes. Quindi vengono ricercati modelli di interesse in una o più forme rappresentazionali. Infine, i modelli vengono valutati utilizzando l'accuratezza predittiva o la comprensibilità.
Qual è la differenza tra KDD e il data mining?
Sebbene i due termini KDD e Data Mining siano ampiamente usati in modo intercambiabile, si riferiscono a due concetti correlati ma leggermente diversi. KDD è il processo complessivo di estrazione della conoscenza dai dati mentre il data mining è un passaggio all'interno del processo KDD, che si occupa di identificare i modelli nei dati. In altre parole, il Data Mining è solo l'applicazione di uno specifico algoritmo basato sull'obiettivo generale del processo KDD.