Um dos conceitos mais fundamentais a dominar quando se trata de aprender com máquinas é supervisionado vs. aprendizagem não supervisionada. Este post de blog fornece um breve resumo, visuais e alguns exemplos de aprendizagem não supervisionada de máquinas para levar o seu conhecimento ML ao próximo nível.
O que é aprendizagem não supervisionada de máquinas?
Aprendizagem supervisionada refere-se ao uso de um conjunto de variáveis de entrada para prever o valor de uma variável de saída rotulada. Requer dados rotulados (pense nisto como uma chave de resposta que o modelo pode usar para avaliar o seu desempenho). Inversamente, aprendizagem não supervisionada refere-se a inferir padrões subjacentes a partir de um conjunto de dados não etiquetado sem qualquer referência a resultados ou previsões rotuladas.
Existem vários métodos de aprendizagem não supervisionada, mas o agrupamento é, de longe, a técnica de aprendizagem não supervisionada mais frequentemente utilizada. Clustering refere-se ao processo de agrupar automaticamente pontos de dados com características semelhantes e atribuí-los a “clusters”
Para ver um exemplo prático de clustering em ação, verifique Clustering: Como funciona (em inglês simples!).
Casos de uso de máquinas sem supervisão
Alguns casos de uso de aprendizagem sem supervisão – mais especificamente, clustering – incluem:
- Segmentação de clientes, ou compreender diferentes grupos de clientes em torno dos quais construir estratégias de marketing ou outras estratégias de negócios.
- Genética, por exemplo, agrupando padrões de DNA para analisar a biologia evolutiva.
- Sistemas de recomendáveis, que envolvem o agrupamento de usuários com padrões de visualização similares para recomendar conteúdo similar.
- Detecção de anomalias, incluindo detecção de fraudes ou detecção de peças mecânicas defeituosas (ou seja manutenção preditiva).
Aprendizagem sem supervisão e agrupamento em Dataiku
Dataiku facilita o aproveitamento de tecnologias de aprendizagem de máquinas e obter feedback visual e estatístico instantâneo sobre o desempenho do modelo. Saiba mais sobre clustering (aprendizagem não supervisionada) em Dataiku.