Yksi keskeisimmistä käsitteistä, jotka on hallittava, kun tutustuu koneoppimisen perusteisiin, on valvottu vs. valvomaton oppiminen. Tämä blogikirjoitus tarjoaa lyhyen selostuksen, visuaalista materiaalia ja muutamia esimerkkejä valvomattomasta koneoppimisesta, jotta voit viedä ML-tietämyksesi seuraavalle tasolle.
Mitä on valvomaton koneoppiminen?
Valvotulla oppimisella tarkoitetaan sitä, että käytetään joukkoa tulomuuttujia ennustamaan merkityn lähtömuuttujan arvoa. Se edellyttää merkittyjä tietoja (ajattele tätä kuin vastausavainta, jonka avulla malli voi arvioida suorituskykyään). Sitä vastoin valvomaton oppiminen viittaa taustalla olevien mallien päättelyyn merkitsemättömästä aineistosta ilman viittausta merkittyihin tuloksiin tai ennusteisiin.
Valvomattomaan oppimiseen on olemassa useita menetelmiä, mutta klusterointi on ylivoimaisesti yleisimmin käytetty valvomattoman oppimisen tekniikka. Klusteroinnilla tarkoitetaan prosessia, jossa ominaisuuksiltaan samankaltaiset datapisteet ryhmitellään automaattisesti yhteen ja osoitetaan “klustereihin”.
Katso käytännön esimerkki klusteroinnista toiminnassa osoitteesta Klusterointi: How it Works (In Plain English!).
Unsupervised Machine Learning Use Cases
Joitakin unsupervised learningin – tarkemmin sanottuna klusteroinnin – käyttötapauksia ovat esimerkiksi:
- Asiakkaiden segmentointi eli erilaisten asiakasryhmien ymmärtäminen, joiden ympärille voidaan rakentaa markkinointi- tai muita liiketoimintastrategioita.
- Genetiikka, esimerkiksi DNA-kuvioiden klusterointi evoluutiobiologian analysoimiseksi.
- Suosittelujärjestelmät, joissa ryhmitellään käyttäjiä, joilla on samankaltaiset katselumallit, jotta voidaan suositella samankaltaista sisältöä.
- Anomalioiden havaitseminen, mukaan lukien petosten havaitseminen tai viallisten mekaanisten osien havainnointi (esim, ennakoiva kunnossapito).
Unsupervised Learning and Clustering in Dataiku
Dataikun avulla on helppo hyödyntää koneoppimistekniikoita ja saada välitöntä visuaalista ja tilastollista palautetta mallien suorituskyvystä. Lue lisää klusteroinnista (valvomaton oppiminen) Dataikussa.