Foto por Louis Hansel @shotsoflouis on UnsplashNo mundo real, Os dados não são tão limpos como se supõe muitas vezes. É aí que entra toda a mineração de dados e as disputas; para construir insights a partir dos dados que foram estruturados usando consultas, e agora provavelmente contém certos valores ausentes, e exibe possíveis padrões que são invisíveis a olho nu. É aí que entra o Machine Learning: Para verificar padrões e fazer uso desses padrões para prever resultados usando essas relações recém compreendidas nos dados.
Para se entender a profundidade do algoritmo, é preciso ler as variáveis nos dados, e o que essas variáveis representam. Entender isso é importante porque você precisa provar os seus resultados, com base na sua compreensão dos dados. Se os seus dados contêm cinco, ou mesmo cinquenta variáveis, digamos que você seja capaz de passar por todas elas. Mas e se os dados contiverem 200 variáveis? Você não tem tempo para analisar cada variável. Além disso, vários algoritmos não funcionarão com dados categóricos, então você tem que converter todas as colunas categóricas em variáveis quantitativas (elas parecem quantitativas, mas a métrica justificará que elas são categóricas), para empurrá-las para o modelo. Então, isso aumenta o número de variáveis nos seus dados, e agora você está pendurado por aí com 500 variáveis. Como você lida com elas? Você pode pensar que a redução da dimensionalidade é a resposta, de imediato. Algoritmos de redução de dimensionalidade irão reduzir as dimensões, mas a interpretabilidade não é tão boa assim. E se eu lhe disser que existem outras técnicas, que podem eliminar características, e ainda seria fácil de entender e interpretar as características retidas?
Dependente se a análise é baseada em regressão ou classificação, as técnicas de seleção de características podem diferir/variar, mas a idéia geral de como implementá-la permanece a mesma.
Aqui estão algumas técnicas de selecção de características para abordar esta questão:
Variáveis altamente correlacionadas entre si, dão a mesma informação ao modelo e, portanto, torna-se desnecessário incluí-las todas para a nossa análise. Por exemplo: Se um conjunto de dados contém um recurso “Tempo de Navegação”, e outro chamado “Dados Utilizados durante a Navegação”, então você pode imaginar que essas duas variáveis estarão correlacionadas até certo ponto, e nós veríamos essa alta correlação mesmo se pegarmos uma amostra imparcial dos dados. Nesse caso, exigiríamos apenas uma dessas variáveis para estar presente como um preditor no modelo, porque se usarmos ambas, então o modelo se ajustará demais e se tornará tendencioso em relação a essa(s) característica(s) específica(s).