Representatividad Muestral en la Incertidumbre Simétrica Multivariada para la Selección de Atributos
Gustavo Sosa-Cabrera
TL;DR
Este trabajo analiza la Medida de Incertidumbre Simétrica Multivariada (MSU) para la selección de atributos en espacios de alta dimensionalidad, enfocándose en sesgos derivados de la cardinalidad y del tamaño muestral. Mediante simulaciones Monte Carlo con datos sintéticos generados por el Método de Kononenko y configuraciones XOR, se identifica que MSU hereda sesgos de la ganancia de información y la incertidumbre simétrica, y propone una relación empírica de asociación que vincula los factores clave y garantiza representatividad total de la muestra. Se valida la propuesta a través de pruebas de bondad de ajuste (χ²) para estimar un tamaño muestral mínimo y demostrar que, cuando se cumple la relación m ≈ 10 |clase| ∏ |f_i|, MSU se mantiene estable y menos sesgado. Las contribuciones incluyen la caracterización del sesgo en MSU, la introducción del concepto de representatividad total de la muestra y un marco empírico para estimar el tamaño muestral adecuado en escenarios de reducción de dimensionalidad. Estas ideas pueden orientar la práctica de selección de atributos en conjuntos de datos de alta dimensionalidad, reduciendo el riesgo de sobreajuste y mejorando la detección de interacciones multivariadas entre atributos.
Abstract
In this work, we analyze the behavior of the multivariate symmetric uncertainty (MSU) measure through the use of statistical simulation techniques under various mixes of informative and non-informative randomly generated features. Experiments show how the number of attributes, their cardinalities, and the sample size affect the MSU. In this thesis, through observation of results, it is proposed an heuristic condition that preserves good quality in the MSU under different combinations of these three factors, providing a new useful criterion to help drive the process of dimension reduction. -- En el presente trabajo hemos analizado el comportamiento de una versión multivariada de la incertidumbre simétrica a través de técnicas de simulación estadísticas sobre varias combinaciones de atributos informativos y no-informativos generados de forma aleatoria. Los experimentos muestran como el número de atributos, sus cardinalidades y el tamaño muestral afectan al MSU como medida. En esta tesis, mediante la observación de resultados hemos propuesto una condición que preserva una buena calidad en el MSU bajo diferentes combinaciones de los tres factores mencionados, lo cual provee un nuevo y valioso criterio para llevar a cabo el proceso de reducción de dimensionalidad.
