Sélection de caractéristiques en apprentissage automatique

Apprentissage automatique

Shaurya Lalwani

Follow

Jul 10, 2020 – 7 min de lecture

.

Photo de Louis Hansel @shotsoflouis sur Unsplash

Dans le monde réel, les données ne sont pas aussi propres qu’on le croit souvent. C’est là qu’interviennent l’exploration et le traitement des données, afin d’obtenir des informations à partir de données qui ont été structurées à l’aide de requêtes, qui contiennent probablement certaines valeurs manquantes et qui présentent des modèles invisibles à l’œil nu. C’est là que l’apprentissage automatique entre en jeu : Vérifier les modèles et utiliser ces modèles pour prédire les résultats en utilisant ces relations nouvellement comprises dans les données.

Pour que l’on comprenne la profondeur de l’algorithme, il faut lire les variables dans les données, et ce que ces variables représentent. Comprendre cela est important car vous devez prouver vos résultats, en vous basant sur votre compréhension des données. Si vos données contiennent cinq, voire cinquante variables, disons que vous êtes en mesure de les parcourir toutes. Mais qu’en est-il si elles contiennent 200 variables ? Vous n’avez pas le temps de passer en revue chaque variable. En outre, certains algorithmes ne fonctionnent pas avec des données catégorielles, et vous devez donc convertir toutes les colonnes catégorielles en variables quantitatives (elles ont l’air quantitatives, mais les métriques justifieront qu’elles sont catégorielles), pour les intégrer au modèle. Cela augmente donc le nombre de variables dans vos données, et vous vous retrouvez maintenant avec 500 variables. Comment les gérer ? Vous pourriez penser que la réduction de la dimensionnalité est la réponse, tout de suite. Les algorithmes de réduction de la dimensionnalité réduisent les dimensions, mais l’interprétabilité n’est pas très bonne. Et si je vous disais qu’il existe d’autres techniques, qui peuvent éliminer des caractéristiques, et qu’il serait toujours facile de comprendre et d’interpréter les caractéristiques conservées ?

Selon que l’analyse est basée sur la régression ou la classification, les techniques de sélection des caractéristiques peuvent différer/variées, mais l’idée générale de la mise en œuvre reste la même.

Voici quelques techniques de sélection de caractéristiques pour résoudre ce problème :

Les variables qui sont fortement corrélées entre elles, donnent les mêmes informations au modèle, et donc il devient inutile de les inclure toutes pour notre analyse. Par exemple : Si un ensemble de données contient une caractéristique “Temps de navigation”, et une autre appelée “Données utilisées pendant la navigation”, alors vous pouvez imaginer que ces deux variables seront corrélées dans une certaine mesure, et nous verrions cette forte corrélation même si nous prenons un échantillon non biaisé des données. Dans un tel cas, nous aurions besoin qu’une seule de ces variables soit présente comme prédicteur dans le modèle, car si nous utilisons les deux, alors le modèle sera surajusté et deviendra biaisé vers cette ou ces caractéristiques particulières.

Photo par Akin Cakiner sur Unsplash

P-Valeurs

Dans les algorithmes comme la régression linéaire, un modèle statistique initial est toujours une bonne idée, car il aide à visualiser l’importance des caractéristiques, à l’aide de leurs valeurs P qui ont été obtenues en utilisant ce modèle. En fixant un niveau de signification, on vérifie les P-values obtenues, et si cette valeur est inférieure au niveau de signification, cela montre que la caractéristique est significative, c’est-à-dire qu’un changement de cette valeur est susceptible de montrer un changement de la valeur de la Cible.

Photo de Joshua Eckstein sur Unsplash

Sélection avant

La sélection avant est une technique qui implique l’utilisation de la régression par étapes. Ainsi, le modèle commence à se construire à partir du point zéro, c’est-à-dire un modèle vide, puis chaque itération ajoute une variable de telle sorte qu’il y ait une amélioration du modèle en cours de construction. La variable à ajouter à chaque itération est déterminée en fonction de sa signification, qui peut être calculée à l’aide de diverses mesures, la plus courante étant la valeur P obtenue à partir d’un modèle statistique initial construit avec toutes les variables. Parfois, la sélection avancée peut provoquer un surajustement car elle peut ajouter des variables fortement corrélées au modèle, même lorsqu’elles fournissent les mêmes données au modèle (mais le modèle montre une amélioration).

Photo d’Edu Grande sur Unsplash

Élimination arrière

L’élimination arrière implique également une sélection de caractéristiques par étapes, d’une manière opposée à celle de la sélection avant. Dans ce cas, le modèle initial commence avec toutes les variables indépendantes, et une par une, ces variables sont éliminées (une par itération), si elles ne fournissent pas de valeur au modèle de régression nouvellement formé à chaque itération. Là encore, on se base sur les valeurs P obtenues à l’aide du modèle statistique initial, et sur la base de ces valeurs P, les caractéristiques sont éliminées du modèle. En utilisant cette méthode également, il y a une incertitude dans l’élimination des variables fortement corrélées.

Photo de Markus Spiske sur Unsplash

Recursive Feature Elimination (RFE)

La RFE est une technique/algorithme largement utilisée pour sélectionner un nombre exact de caractéristiques significatives, parfois pour expliquer un nombre particulier de caractéristiques “les plus importantes” ayant un impact sur l’entreprise, et parfois comme une méthode pour réduire un nombre très élevé de caractéristiques (disons autour de 200-400) pour ne garder que celles qui créent même un peu d’impact sur le modèle, et éliminer le reste. RFE utilise un système basé sur les rangs, pour montrer les rangs des caractéristiques dans l’ensemble de données, et ces rangs sont utilisés pour éliminer les caractéristiques dans une boucle récursive, basée sur la colinéarité présente entre eux, et bien sûr, l’importance de ces caractéristiques dans le modèle. Outre le classement des caractéristiques, RFE peut montrer si ces caractéristiques sont importantes ou non, même pour le nombre sélectionné de caractéristiques (car il est très possible que le nombre, que nous avons choisi, ne représente pas le nombre optimal de caractéristiques importantes, et que le nombre optimal de caractéristiques peut être plus ou moins important que ce nombre choisi par l’utilisateur).

Photo par Andrew Seaman sur Unsplash

Importance des caractéristiques graphiques

Lorsque nous parlons de l’interprétabilité des algorithmes d’apprentissage automatique, nous discutons généralement de la régression linéaire (car nous pouvons analyser l’importance des caractéristiques en utilisant les valeurs P) et de l’arbre de décision (qui montre pratiquement l’importance des caractéristiques sous la forme d’un arbre, qui montre également la hiérarchie de l’importance), mais d’un autre côté, nous utilisons souvent le graphique d’importance des variables, pour tracer les variables et la “quantité de leur importance”, dans des algorithmes tels que Random Forest Classifier, Light Gradient Boosting Machine, et XG Boost. Cela est particulièrement utile lorsque l’importance bien structurée des caractéristiques doit être présentée à une entreprise qui est analysée.

Photo de Robert Anasch sur Unsplash

Regularisation

La régularisation est effectuée pour surveiller le compromis entre le biais et la variance. Le biais indique dans quelle mesure le modèle s’est surajusté sur l’ensemble des données d’apprentissage. La variance nous indique à quel point les prédictions faites sur les ensembles de données d’apprentissage et de test étaient différentes. Idéalement, le biais et la variance doivent tous deux être réduits. C’est là que la régularisation intervient pour sauver la situation ! Il existe principalement deux types de techniques de régularisation :

L1 Régularisation – Lasso : Lasso pénalise les coefficients bêta du modèle pour modifier leur importance dans le modèle, et peut même les mettre à la masse (les transformer en zéros, c’est-à-dire essentiellement supprimer ces variables du modèle final). Généralement, Lasso est utilisé lorsque vous observez que votre ensemble de données a un grand nombre de variables, et que vous avez besoin de supprimer certaines d’entre elles pour mieux comprendre comment les caractéristiques importantes affectent votre modèle (c’est-à-dire les caractéristiques qui sont finalement sélectionnées par Lasso, et leur importance est attribuée).

L2 Régularisation – Ridge : La fonction de Ridge est de maintenir toutes les variables, c’est-à-dire utiliser toutes les variables pour construire le modèle, et en même temps, leur attribuer une importance telle qu’il y a une amélioration de la performance du modèle. Ridge est un excellent choix lorsque le nombre de variables dans l’ensemble de données est faible, et donc toutes ces variables sont nécessaires pour interpréter les aperçus et les résultats cibles prédits obtenus.

Puisque Ridge maintient toutes les variables intactes, et que Lasso fait un meilleur travail pour attribuer de l’importance aux variables, une combinaison des deux, connue sous le nom de Elastic-Net a été développée comme un moyen de développer un algorithme, en combinant les meilleures caractéristiques de Ridge et Lasso. Elastic-Net devient ainsi le choix idéal.

Photo de Hunter Harritt sur Unsplash

.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.