Introducere
Întregul proces de data mining nu poate fi finalizat într-o singură etapă. Cu alte cuvinte, nu puteți obține informațiile necesare din volumele mari de date atât de simplu. Este un proces foarte complex decât credem noi, care implică o serie de procese. Procesele care includ curățarea datelor, integrarea datelor, selectarea datelor, transformarea datelor, extragerea datelor, evaluarea modelelor și reprezentarea cunoștințelor trebuie să fie finalizate în ordinea dată.
Tipuri de procese de extragere a datelor
Diferitele procese de extragere a datelor pot fi clasificate în două tipuri: pregătirea datelor sau preprocesarea datelor și extragerea datelor. De fapt, primele patru procese, care sunt curățarea datelor, integrarea datelor, selecția datelor și transformarea datelor, sunt considerate procese de pregătire a datelor. Ultimele trei procese care includ extragerea datelor, evaluarea modelelor și reprezentarea cunoștințelor sunt integrate într-un singur proces numit data mining.
a) Curățarea datelor
Curățarea datelor este procesul prin care datele sunt curățate. Datele din lumea reală sunt în mod normal incomplete, zgomotoase și incoerente. Datele disponibile în sursele de date pot fi lipsite de valori ale atributelor, de date de interes etc. De exemplu, doriți datele demografice ale clienților și ce se întâmplă dacă datele disponibile nu includ atribute pentru sexul sau vârsta clienților? Atunci datele sunt, desigur, incomplete. Uneori, datele pot conține erori sau valori aberante. Un exemplu este un atribut de vârstă cu valoarea 200. Este evident că valoarea vârstei este greșită în acest caz. Datele pot fi, de asemenea, incoerente. De exemplu, numele unui angajat poate fi stocat diferit în diferite tabele de date sau documente. În acest caz, datele sunt incoerente. Dacă datele nu sunt curate, rezultatele extragerii de date nu ar fi nici fiabile, nici precise.
Curățarea datelor implică o serie de tehnici, inclusiv completarea manuală a valorilor lipsă, inspecția combinată a computerului și a omului, etc. Rezultatul procesului de curățare a datelor este reprezentat de datele curățate în mod adecvat.
b) Integrarea datelor
Integrarea datelor este procesul prin care datele din diferite surse de date sunt integrate într-una singură. Datele se află în formate diferite în locații diferite. Datele pot fi stocate în baze de date, fișiere text, foi de calcul, documente, cuburi de date, internet și așa mai departe. Integrarea datelor este o sarcină cu adevărat complexă și dificilă, deoarece datele din diferite surse nu se potrivesc în mod normal. Să presupunem că un tabel A conține o entitate numită client_id, în timp ce un alt tabel B conține o entitate numită număr. Este foarte dificil să ne asigurăm că aceste două entități se referă la aceeași valoare sau nu. Metadatele pot fi utilizate în mod eficient pentru a reduce erorile în procesul de integrare a datelor. O altă problemă cu care ne confruntăm este redundanța datelor. Aceleași date pot fi disponibile în diferite tabele din aceeași bază de date sau chiar în diferite surse de date. Integrarea datelor încearcă să reducă redundanța la nivelul maxim posibil fără a afecta fiabilitatea datelor.
c) Selecția datelor
Procesul de data mining necesită volume mari de date istorice pentru analiză. Astfel, de obicei, depozitul de date cu date integrate conține mult mai multe date decât cele necesare în realitate. Din datele disponibile, datele de interes trebuie să fie selectate și stocate. Selectarea datelor este procesul prin care datele relevante pentru analiză sunt preluate din baza de date.
d) Transformarea datelor
Transformarea datelor este procesul de transformare și consolidare a datelor în diferite forme care sunt potrivite pentru minerit. Transformarea datelor implică, în mod normal, normalizarea, agregarea, generalizarea etc. De exemplu, un set de date disponibil ca “-5, 37, 100, 89, 78” poate fi transformat ca “-0,05, 0,37, 1,00, 0,89, 0,78”. Aici datele devin mai potrivite pentru extragerea datelor. După integrarea datelor, datele disponibile sunt pregătite pentru data mining.
e) Data Mining
Data mining este procesul de bază în care se aplică un număr de metode complexe și inteligente pentru a extrage modele din date. Procesul de extragere a datelor include o serie de sarcini, cum ar fi asocierea, clasificarea, predicția, gruparea, analiza seriilor temporale și așa mai departe.
f) Evaluarea modelelor
Evaluarea modelelor identifică modelele cu adevărat interesante care reprezintă cunoștințe pe baza diferitelor tipuri de măsuri de interes. Un model este considerat interesant dacă este potențial util, ușor de înțeles de către oameni, validează o ipoteză pe care cineva dorește să o confirme sau este valabil pe date noi cu un anumit grad de certitudine.
g) Reprezentarea cunoștințelor
Informațiile extrase din date trebuie să fie prezentate utilizatorului într-un mod atractiv. Diferite tehnici de reprezentare a cunoștințelor și de vizualizare sunt aplicate pentru a oferi utilizatorilor rezultatul extragerii de date.
Rezumat
Metodele de pregătire a datelor împreună cu sarcinile de extragere a datelor completează procesul de extragere a datelor ca atare. Procesul de extragere a datelor nu este atât de simplu pe cât am explicat. Fiecare proces de data mining se confruntă cu o serie de provocări și probleme în scenariul vieții reale și extrage informații potențial utile.
.