Foto de Markus Spiske en UnsplashEliminación recursiva de características (RFE)
La RFE es una técnica/algoritmo muy utilizada para seleccionar un número exacto de características significativas, a veces para explicar un número concreto de características “más importantes” que afectan al negocio, y a veces como método para reducir un número muy elevado de características (digamos alrededor de 200-400) a sólo las que crean un mínimo impacto en el modelo, y eliminando el resto. RFE utiliza un sistema basado en rangos, para mostrar los rangos de las características en el conjunto de datos, y estos rangos se utilizan para eliminar características en un bucle recursivo, basado en la colinealidad presente entre ellos, y por supuesto, la importancia de estas características en el modelo. Además de clasificar las características, RFE puede mostrar si estas características son importantes o no, incluso para el número seleccionado de características (porque es muy posible que el número seleccionado, que elegimos, puede no representar el número óptimo de características importantes, y que el número óptimo de características puede ser más o menos que este número elegido por el usuario).
Regularización
La regularización se hace para controlar el equilibrio entre el sesgo y la varianza. El sesgo indica cuánto se ha sobreajustado el modelo en el conjunto de datos de entrenamiento. La varianza nos dice cuán diferentes fueron las predicciones hechas en los conjuntos de datos de entrenamiento y de prueba. Lo ideal es reducir tanto el sesgo como la varianza. La regularización viene a salvar el día. Existen principalmente dos tipos de técnicas de regularización:
L1 Regularización – Lasso: Lasso penaliza los coeficientes beta del modelo para cambiar su importancia en el modelo, e incluso puede anularlos (convertirlos en ceros, es decir, eliminar básicamente estas variables del modelo final). Por lo general, Lasso se utiliza cuando se observa que el conjunto de datos tiene un gran número de variables, y es necesario eliminar algunas de ellas para una mejor comprensión de cómo las características importantes afectan a su modelo (es decir, las características que son finalmente seleccionadas por Lasso, y su importancia se asigna).
L2 Regularización – Ridge: La función de Ridge es mantener todas las variables, es decir, utilizar todas las variables para construir el modelo, y al mismo tiempo, asignarles una importancia tal que haya una mejora en el rendimiento del modelo. Ridge es una gran elección cuando el número de variables en el conjunto de datos es bajo, y por lo tanto, todas esas variables son necesarias para interpretar las percepciones y los resultados objetivo predichos obtenidos.
Dado que Ridge mantiene todas las variables intactas, y Lasso hace un mejor trabajo en la asignación de importancia a las variables, una combinación de ambos, conocida como Elastic-Net fue desarrollada como una forma de desarrollar un algoritmo, mediante la combinación de las mejores características de Ridge y Lasso. Elastic-Net se convierte así en la opción ideal.
Foto de Hunter Harritt en Unsplash