L’un des concepts les plus fondamentaux à maîtriser lors de la mise à niveau avec les bases de l’apprentissage automatique est l’apprentissage supervisé vs non supervisé. Cet article de blog fournit un bref récapitulatif, des visuels et quelques exemples d’apprentissage automatique non supervisé pour amener vos connaissances en ML au niveau supérieur.
Qu’est-ce que l’apprentissage automatique non supervisé ?
L’apprentissage supervisé fait référence à l’utilisation d’un ensemble de variables d’entrée pour prédire la valeur d’une variable de sortie étiquetée. Il nécessite des données étiquetées (pensez-y comme une clé de réponse que le modèle peut utiliser pour évaluer ses performances). Inversement, l’apprentissage non supervisé fait référence à la déduction de modèles sous-jacents à partir d’un ensemble de données non étiquetées sans aucune référence à des résultats ou des prédictions étiquetés.
Il existe plusieurs méthodes d’apprentissage non supervisé, mais le clustering est de loin la technique d’apprentissage non supervisé la plus utilisée. Le clustering désigne le processus consistant à regrouper automatiquement des points de données présentant des caractéristiques similaires et à les affecter à des “clusters”.
Pour voir un exemple pratique de clustering en action, consultez Clustering : How it Works (In Plain English !).
Cas d’utilisation de l’apprentissage automatique non supervisé
Certains cas d’utilisation de l’apprentissage non supervisé – plus spécifiquement, le clustering – comprennent :
- La segmentation de la clientèle, ou la compréhension de différents groupes de clients autour desquels construire des stratégies marketing ou d’autres stratégies commerciales.
- Génétique, par exemple le regroupement de modèles d’ADN pour analyser la biologie évolutive.
- Systèmes de recommandation, qui impliquent le regroupement d’utilisateurs ayant des modèles de visualisation similaires afin de recommander un contenu similaire.
- Détection d’anomalies, y compris la détection de fraude ou la détection de pièces mécaniques défectueuses (c’est-à-dire, maintenance prédictive).
Apprentissage non supervisé et clustering dans Dataiku
Dataiku permet de tirer facilement parti des technologies d’apprentissage automatique et d’obtenir un retour visuel et statistique instantané sur les performances du modèle. En savoir plus sur le clustering (apprentissage non supervisé) dans Dataiku.