Uno de los conceptos más fundamentales que hay que dominar al ponerse al día con los fundamentos del aprendizaje automático es el aprendizaje supervisado frente al no supervisado. Esta entrada del blog proporciona un breve resumen, imágenes y algunos ejemplos de aprendizaje automático no supervisado para llevar su conocimiento de ML al siguiente nivel.
¿Qué es el aprendizaje automático no supervisado?
El aprendizaje supervisado se refiere al uso de un conjunto de variables de entrada para predecir el valor de una variable de salida etiquetada. Requiere datos etiquetados (piense en esto como una clave de respuestas que el modelo puede utilizar para evaluar su rendimiento). Por el contrario, el aprendizaje no supervisado se refiere a la inferencia de patrones subyacentes a partir de un conjunto de datos no etiquetados sin ninguna referencia a resultados o predicciones etiquetados.
Hay varios métodos de aprendizaje no supervisado, pero la agrupación es, con mucho, la técnica de aprendizaje no supervisado más utilizada. El clustering se refiere al proceso de agrupar automáticamente puntos de datos con características similares y asignarlos a “clusters”
Para ver un ejemplo práctico de clustering en acción, consulte Clustering: How it Works (In Plain English!).
Casos de uso del aprendizaje automático no supervisado
Algunos casos de uso del aprendizaje no supervisado -más concretamente, el clustering- incluyen:
- Segmentación de clientes, o comprensión de diferentes grupos de clientes en torno a los cuales construir estrategias de marketing u otras estrategias de negocio.
- Genética, por ejemplo, la agrupación de patrones de ADN para analizar la biología evolutiva.
- Sistemas de recomendación, que implican la agrupación de usuarios con patrones de visualización similares con el fin de recomendar contenidos similares.
- Detección de anomalías, incluyendo la detección de fraudes o la detección de piezas mecánicas defectuosas (es decir, mantenimiento predictivo).
Aprendizaje no supervisado y clustering en Dataiku
Dataiku hace que sea fácil aprovechar las tecnologías de aprendizaje automático y obtener información visual y estadística instantánea sobre el rendimiento del modelo. Aprenda más sobre el clustering (aprendizaje no supervisado) en Dataiku.