V reálném světě, nejsou data tak čistá, jak se často předpokládá. Proto přichází na řadu dolování a zpracovávání dat; vytváření poznatků z dat, která byla strukturována pomocí dotazů a nyní pravděpodobně obsahují určité chybějící hodnoty a vykazují možné vzory, které jsou pouhým okem neviditelné. Zde přichází na řadu strojové učení:
Pro pochopení hloubky algoritmu je třeba pročíst proměnné v datech a co tyto proměnné představují. Pochopení této skutečnosti je důležité, protože na základě pochopení dat musíte dokázat své výsledky. Pokud vaše data obsahují pět nebo dokonce padesát proměnných, řekněme, že jste schopni je všechny projít. Ale co když obsahují 200 proměnných? Nemáte čas procházet každou proměnnou. Navíc různé algoritmy nebudou pracovat s kategoriálními daty, takže musíte všechny kategoriální sloupce převést na kvantitativní proměnné (vypadají jako kvantitativní, ale metrika zdůvodní, že jsou kategoriální), abyste je mohli protlačit do modelu. Tím se zvýší počet proměnných v datech a nyní se potloukáte s 500 proměnnými. Jak s nimi naložíte? Možná vás napadne, že řešením je hned redukce dimenzionality. Algoritmy pro redukci dimenzionality sníží dimenze, ale interpretovatelnost není tak dobrá. Co když vám řeknu, že existují i jiné techniky, které mohou eliminovat rysy, a přesto bude snadné zachované rysy pochopit a interpretovat?
V závislosti na tom, zda je analýza založena na regresi nebo klasifikaci, se techniky výběru rysů mohou lišit/různit, ale obecná myšlenka, jak je realizovat, zůstává stejná.
Níže uvádíme několik technik výběru funkcí, které tento problém řeší:
Proměnné, které jsou vzájemně vysoce korelované, poskytují modelu stejnou informaci, a proto je zbytečné zahrnovat je všechny do naší analýzy. Např: Pokud soubor dat obsahuje funkci “Doba prohlížení” a další s názvem “Data použitá při prohlížení”, pak si lze představit, že tyto dvě proměnné budou do jisté míry korelované, a tuto vysokou korelaci bychom viděli, i kdybychom vybrali nezkreslený vzorek dat. V takovém případě bychom požadovali, aby v modelu byla jako prediktor přítomna pouze jedna z těchto proměnných, protože pokud bychom použili obě, pak by se model nadměrně přizpůsobil a byl by zkreslený vůči této konkrétní vlastnosti (vlastnostem).