Wideskills

Bevezetés

Az adatbányászat teljes folyamata nem fejezhető be egyetlen lépésben. Más szóval, a nagy mennyiségű adatból nem lehet ilyen egyszerűen megszerezni a szükséges információkat. Ez egy nagyon összetett folyamat, mint gondolnánk, amely számos folyamatot foglal magában. Az adattisztítást, az adatintegrációt, az adatok kiválasztását, az adatok átalakítását, az adatbányászatot, a mintaértékelést és a tudás reprezentációját tartalmazó folyamatokat az adott sorrendben kell elvégezni.

Az adatbányászati folyamatok típusai

A különböző adatbányászati folyamatok két típusba sorolhatók: adatelőkészítés vagy adatelőfeldolgozás és adatbányászat. Valójában az első négy folyamat, azaz az adattisztítás, az adatintegráció, az adatválasztás és az adattranszformáció adatelőkészítési folyamatnak tekinthető. Az utolsó három folyamatot, beleértve az adatbányászatot, a mintaértékelést és a tudás reprezentációját, egyetlen folyamatba integrálják, amelyet adatbányászatnak neveznek.

a) Adattisztítás

Az adattisztítás az a folyamat, amelyben az adatokat megtisztítják. A valós világban az adatok általában hiányosak, zajosak és ellentmondásosak. Az adatforrásokban rendelkezésre álló adatokból hiányozhatnak az attribútumértékek, az érdekes adatok stb. Például az ügyfelek demográfiai adataira van szükség, és mi van, ha a rendelkezésre álló adatok nem tartalmazzák az ügyfelek nemére vagy életkorára vonatkozó attribútumokat? Akkor az adatok természetesen hiányosak. Előfordulhat, hogy az adatok hibákat vagy kiugró értékeket tartalmaznak. Egy példa erre egy 200-as értékű életkor attribútum. Nyilvánvaló, hogy az életkor értéke ebben az esetben hibás. Az adatok ellentmondásosak is lehetnek. Például előfordulhat, hogy egy alkalmazott neve különböző adattáblákban vagy dokumentumokban eltérő módon van tárolva. Itt az adatok nem konzisztensek. Ha az adatok nem tiszták, az adatbányászati eredmények nem lennének sem megbízhatóak, sem pontosak.

Az adattisztítás számos technikát foglal magában, beleértve a hiányzó értékek kézi kitöltését, a kombinált számítógépes és emberi ellenőrzést stb. Az adattisztítási folyamat kimenete a megfelelően megtisztított adatok.

b) Adatintegráció

Az adatintegráció az a folyamat, amelynek során a különböző adatforrásokból származó adatokat egybe integrálják. Az adatok különböző formátumokban, különböző helyeken fekszenek. Az adatok tárolhatók adatbázisokban, szöveges fájlokban, táblázatokban, dokumentumokban, adatkockákban, interneten stb. Az adatintegráció valóban összetett és trükkös feladat, mivel a különböző forrásokból származó adatok általában nem egyeznek. Tegyük fel, hogy egy A tábla tartalmaz egy customer_id nevű entitást, míg egy másik B tábla egy szám nevű entitást tartalmaz. Nagyon nehéz biztosítani, hogy mindkét entitás ugyanarra az értékre vonatkozik-e vagy sem. A metaadatok hatékonyan használhatók a hibák csökkentésére az adatintegrációs folyamat során. Egy másik probléma az adatredundancia. Előfordulhat, hogy ugyanazok az adatok ugyanazon adatbázis különböző tábláiban vagy akár különböző adatforrásokban is rendelkezésre állnak. Az adatintegráció megpróbálja a redundanciát a lehető legnagyobb mértékben csökkenteni anélkül, hogy az adatok megbízhatóságát befolyásolná.

c) Adatválasztás

Az adatbányászati folyamat nagy mennyiségű historikus adatot igényel az elemzéshez. Így általában az integrált adatokat tartalmazó adattár sokkal több adatot tartalmaz, mint amennyire valójában szükség van. A rendelkezésre álló adatokból ki kell választani és tárolni kell az érdeklődésre számot tartó adatokat. Az adatkiválasztás az a folyamat, amelynek során az elemzés szempontjából releváns adatok kerülnek elő az adatbázisból.

d) Adattranszformáció

Az adattranszformáció az adatok különböző, bányászatra alkalmas formákba történő átalakításának és konszolidálásának folyamata. Az adattranszformáció általában normalizálást, aggregálást, általánosítást stb. foglal magában. Például egy “-5, 37, 100, 89, 78” formában rendelkezésre álló adathalmaz átalakítható “-0,05, 0,37, 1,00, 0,89, 0,78” formában. Itt az adatok alkalmasabbá válnak az adatbányászathoz. Az adatintegráció után a rendelkezésre álló adatok készen állnak az adatbányászathoz.

e) Adatbányászat

Az adatbányászat az a központi folyamat, ahol számos összetett és intelligens módszert alkalmaznak az adatokból történő mintázatok kinyerésére. Az adatbányászati folyamat számos feladatot tartalmaz, például asszociációt, osztályozást, előrejelzést, klaszterezést, idősorelemzést és így tovább.

f) Mintaértékelés

A mintaértékelés különböző típusú érdekességi mértékek alapján azonosítja a tudást reprezentáló, valóban érdekes mintákat. Egy mintázat akkor tekinthető érdekesnek, ha potenciálisan hasznos, az ember számára könnyen érthető, igazol valamilyen hipotézist, amelyet valaki meg akar erősíteni, vagy bizonyos fokú bizonyossággal érvényes az új adatokra.

g) Tudás reprezentációja

Az adatokból bányászott információt a felhasználó számára vonzó módon kell megjeleníteni. Különböző tudásreprezentációs és vizualizációs technikákat alkalmaznak, hogy az adatbányászat kimenetét a felhasználók számára elérhetővé tegyék.

Összefoglaló

Az adatelőkészítési módszerek az adatbányászati feladatokkal együtt teszik teljessé az adatbányászati folyamatot, mint olyat. Az adatbányászati folyamat nem olyan egyszerű, mint ahogyan azt elmagyarázzuk. Minden adatbányászati folyamat számos kihívással és problémával szembesül a valós élet forgatókönyvében, és potenciálisan hasznos információkat von ki.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.