Wideskills

Úvod

Celý proces dolování dat nelze dokončit v jediném kroku. Jinými slovy, z velkých objemů dat nelze získat požadované informace tak jednoduše. Jedná se o velmi složitý proces, než si myslíme, zahrnující řadu procesů. Procesy zahrnující čištění dat, integraci dat, výběr dat, transformaci dat, dolování dat, vyhodnocení vzorů a reprezentaci znalostí je třeba dokončit v daném pořadí.

Typy procesů dolování dat

Různé procesy dolování dat lze rozdělit do dvou typů: příprava dat nebo předzpracování dat a dolování dat. Ve skutečnosti jsou první čtyři procesy, tedy čištění dat, integrace dat, výběr dat a transformace dat, považovány za procesy přípravy dat. Poslední tři procesy zahrnující dolování dat, vyhodnocování vzorů a reprezentaci znalostí jsou integrovány do jednoho procesu nazývaného dolování dat.

a) Čištění dat

Čištění dat je proces, při kterém se data čistí. Data v reálném světě jsou obvykle neúplná, zašuměná a nekonzistentní. V datech dostupných v datových zdrojích mohou chybět hodnoty atributů, zájmové údaje atd. Například chcete demografické údaje o zákaznících a co když dostupná data neobsahují atributy pohlaví nebo věku zákazníků? Pak jsou data samozřejmě neúplná. Někdy mohou data obsahovat chyby nebo odlehlé hodnoty. Příkladem může být atribut věku s hodnotou 200. Je zřejmé, že hodnota věku je v tomto případě chybná. Data mohou být také nekonzistentní. Například jméno zaměstnance může být v různých datových tabulkách nebo dokumentech uloženo různě. V tomto případě jsou data nekonzistentní. Pokud by data nebyla čistá, výsledky dolování dat by nebyly spolehlivé ani přesné.

Čištění dat zahrnuje řadu technik včetně ručního doplňování chybějících hodnot, kombinované počítačové a lidské kontroly atd. Výstupem procesu čištění dat jsou adekvátně vyčištěná data.

b) Integrace dat

Integrace dat je proces, při kterém jsou data z různých zdrojů dat integrována do jednoho. Data leží v různých formátech na různých místech. Data mohou být uložena v databázích, textových souborech, tabulkách, dokumentech, datových kostkách, na internetu atd. Integrace dat je opravdu složitý a ošemetný úkol, protože data z různých zdrojů se běžně neshodují. Předpokládejme, že tabulka A obsahuje entitu s názvem customer_id, kdežto jiná tabulka B obsahuje entitu s názvem number. Je opravdu obtížné zajistit, aby obě tyto entity odkazovaly na stejnou hodnotu, nebo ne. Metadata lze účinně využít k omezení chyb v procesu integrace dat. Dalším problémem, kterému čelíme, je redundance dat. Stejná data mohou být k dispozici v různých tabulkách téže databáze nebo dokonce v různých zdrojích dat. Integrace dat se snaží snížit redundanci na maximální možnou úroveň, aniž by byla ovlivněna spolehlivost dat.

c) Výběr dat

Proces vytěžování dat vyžaduje pro analýzu velké objemy historických dat. Datové úložiště s integrovanými daty tedy obvykle obsahuje mnohem více dat, než je skutečně potřeba. Z dostupných dat je třeba vybrat a uložit data, která jsou předmětem zájmu. Výběr dat je proces, při kterém se z databáze získávají data relevantní pro analýzu.

d) Transformace dat

Transformace dat je proces transformace a konsolidace dat do různých forem, které jsou vhodné pro dolování. Transformace dat obvykle zahrnuje normalizaci, agregaci, generalizaci atd. Například soubor dat, který je k dispozici jako “-5, 37, 100, 89, 78”, lze transformovat jako “-0,05, 0,37, 1,00, 0,89, 0,78”. Zde se data stanou vhodnějšími pro data mining. Po integraci dat jsou dostupná data připravena pro dolování dat.

e) Dolování dat

Dolování dat je základní proces, při kterém se používá řada složitých a inteligentních metod k získání vzorů z dat. Proces dolování dat zahrnuje řadu úloh, jako jsou asociace, klasifikace, predikce, shlukování, analýza časových řad atd.

f) Vyhodnocení vzorů

Vyhodnocení vzorů identifikuje skutečně zajímavé vzory představující znalosti na základě různých typů měr zajímavosti. Vzor je považován za zajímavý, pokud je potenciálně užitečný, snadno pochopitelný pro člověka, potvrzuje nějakou hypotézu, kterou chce někdo potvrdit, nebo platí na nových datech s určitou mírou jistoty.

g) Reprezentace znalostí

Informace vytěžené z dat je třeba prezentovat uživateli atraktivním způsobem. K poskytnutí výstupu z dolování dat uživatelům se používají různé techniky reprezentace znalostí a vizualizace.

Shrnutí

Metody přípravy dat spolu s úlohami dolování dat doplňují proces dolování dat jako takový. Proces dolování dat není tak jednoduchý, jak vysvětlujeme. Každý proces dolování dat čelí v reálném scénáři řadě výzev a problémů a získává potenciálně užitečné informace.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.