¿Necesitamos un muestreo equilibrado?

 

Resampling es una solución que es muy popular en el trato con el desequilibrio de clase. Nuestra investigación sobre la predicción del churn muestra que el muestreo equilibrado es innecesario.

Por Bing Zhu (Universidad de Sichuan), Bart Baesens (KU Leuven) y Seppe vanden Broucke (KU Leuven).

En muchas tareas de clasificación del mundo real, como la predicción de churn y la detección de fraude, a menudo encontramos el problema de desequilibrio de clase, lo que significa que una clase está significativamente superada en número por la otra clase. El problema de desequilibrio de clase plantea grandes desafíos a los algoritmos de aprendizaje de clasificación estándar. La mayoría tiende a clasificar mal las instancias minoritarias con mayor frecuencia que las instancias mayoritarias en conjuntos de datos desequilibrados. Por ejemplo, cuando un modelo es entrenado en un conjunto de datos con 1% de casos de la clase minoritaria, se puede lograr una tasa de precisión del 99% simplemente clasificando todas las instancias como pertenecientes a la clase mayoritaria. De hecho, el problema del aprendizaje sobre conjuntos de datos desequilibrados se considera uno de los diez desafiantes problemas en la investigación de minería de datos.


Con el fin de resolver el problema del aprendizaje a partir de conjuntos de datos desequilibrados, muchas soluciones se han propuesto en los últimos años. Los enfoques de re-muestreo tratan de resolver el problema remuestreando los datos y actuando como una fase de preprocesamiento. Se supone que su uso es independiente del clasificador y puede aplicarse a cualquier algoritmo de aprendizaje. Por lo tanto, las soluciones de remuestreo son muy populares en la práctica. Una pregunta importante cuando usamos el remuestreo es si realmente necesitamos un conjunto de datos perfectamente equilibrado. Nuestra investigación sobre la predicción del churn muestra que un muestreo equilibrado es innecesario.

Utilizamos 11 conjuntos de datos del mundo real de la industria de las telecomunicaciones en nuestros experimentos. Se consideraron siete métodos de muestreo, que incluyeron el sobre-muestreo aleatorio, el muestreo aleatorio de SMOTE bajo el muestreo y así sucesivamente. Consideramos tres ajustes diferentes para las proporciones de clase: 1: 3, 2: 3 y 1: 1 (minoría versus mayoría). Cuatro clasificadores de referencia se utilizan en los experimentos: regresión logística, árbol de decisión C4.5, máquina de vector de apoyo (SVM) y bosques al azar (RF), que se utilizan ampliamente en la predicción de churn. La siguiente tabla muestra parte de los resultados usando una configuración experimental de validación cruzada 5 × 2, donde cada entrada representa el rendimiento medio de cada tasa de muestreo entre diferentes clasificadores y métodos de muestreo. Además de la medida AUC, también consideramos la medida de ganancia máxima, que mide el beneficio producido por una campaña de retención (Verbraken et al., 2013).


Como muestra la tabla, la proporción de 1: 3 es la mejor en dos conjuntos de datos y la proporción de 2: 3 es la primera en dos conjuntos de datos. La relación de clase equilibrada nunca alcanza la posición superior. Los resultados muestran claramente que no es necesario producir conjuntos de datos equilibrados después del muestreo y la estrategia menos equilibrada (1: 3) sería nuestra recomendación debido a su desempeño relativamente bueno. Los resultados completos y más discusiones se pueden encontrar en nuestro reciente artículo “Benchmarking técnicas de muestreo para el aprendizaje de desequilibrio en la predicción churn” publicado en JORS.

 

tomado de: (http://www.kdnuggets.com/2017/05/need-balanced-sampling.html)