În lumea reală, datele nu sunt atât de curate pe cât se presupune adesea că sunt. Aici intervin toate activitățile de minerit și de prelucrare a datelor; pentru a construi perspective din datele care au fost structurate cu ajutorul interogărilor și care acum conțin probabil anumite valori lipsă și prezintă posibile modele care nu sunt văzute cu ochiul liber. Aici intervine învățarea automată: Să verifice tiparele și să utilizeze aceste tipare pentru a prezice rezultatele folosind aceste relații nou înțelese în date.
Pentru a înțelege profunzimea algoritmului, trebuie să citim variabilele din date și ce reprezintă aceste variabile. Înțelegerea acestui lucru este importantă deoarece trebuie să vă dovediți rezultatele, pe baza înțelegerii datelor. Dacă datele dvs. conțin cinci, sau chiar cincizeci de variabile, să spunem că sunteți capabil să le parcurgeți pe toate. Dar ce se întâmplă dacă acestea conțin 200 de variabile? Nu aveți timp să treceți în revistă fiecare variabilă. În plus, diverși algoritmi nu vor funcționa cu date categorice, așa că trebuie să convertiți toate coloanele categorice în variabile cantitative (par cantitative, dar metricile vor justifica faptul că sunt categorice), pentru a le introduce în model. Așadar, acest lucru mărește numărul de variabile din datele dumneavoastră, iar acum vă învârtiți în jurul a 500 de variabile. Cum vă ocupați de ele? S-ar putea să credeți că reducerea dimensionalității este răspunsul, imediat. Algoritmii de reducere a dimensiunii vor reduce dimensiunile, dar interpretabilitatea nu este atât de bună. Dacă v-aș spune că există și alte tehnici, care pot elimina caracteristici și ar fi în continuare ușor de înțeles și de interpretat caracteristicile reținute?
În funcție de faptul că analiza se bazează pe regresie sau clasificare, tehnicile de selecție a caracteristicilor pot fi diferite/variate, dar ideea generală a modului de implementare rămâne aceeași.
Iată câteva tehnici de selecție a caracteristicilor pentru a aborda această problemă:
Variabilele care sunt foarte corelate între ele, oferă aceleași informații modelului și, prin urmare, devine inutil să le includem pe toate în analiza noastră. De exemplu: Dacă un set de date conține o caracteristică “Timp de navigare” și o alta numită “Date utilizate în timpul navigării”, atunci vă puteți imagina că aceste două variabile vor fi corelate într-o oarecare măsură și vom observa această corelație ridicată chiar dacă luăm un eșantion de date nepărtinitor. Într-un astfel de caz, am avea nevoie ca doar una dintre aceste variabile să fie prezentă ca predictor în model, deoarece, dacă le folosim pe amândouă, atunci modelul se va suprapune și va fi distorsionat în favoarea acestei (acestor) caracteristici particulare.