Table of Contents
Fetching ...

Representatividad Muestral en la Incertidumbre Simétrica Multivariada para la Selección de Atributos

Gustavo Sosa-Cabrera

TL;DR

Este trabajo analiza la Medida de Incertidumbre Simétrica Multivariada (MSU) para la selección de atributos en espacios de alta dimensionalidad, enfocándose en sesgos derivados de la cardinalidad y del tamaño muestral. Mediante simulaciones Monte Carlo con datos sintéticos generados por el Método de Kononenko y configuraciones XOR, se identifica que MSU hereda sesgos de la ganancia de información y la incertidumbre simétrica, y propone una relación empírica de asociación que vincula los factores clave y garantiza representatividad total de la muestra. Se valida la propuesta a través de pruebas de bondad de ajuste (χ²) para estimar un tamaño muestral mínimo y demostrar que, cuando se cumple la relación m ≈ 10 |clase| ∏ |f_i|, MSU se mantiene estable y menos sesgado. Las contribuciones incluyen la caracterización del sesgo en MSU, la introducción del concepto de representatividad total de la muestra y un marco empírico para estimar el tamaño muestral adecuado en escenarios de reducción de dimensionalidad. Estas ideas pueden orientar la práctica de selección de atributos en conjuntos de datos de alta dimensionalidad, reduciendo el riesgo de sobreajuste y mejorando la detección de interacciones multivariadas entre atributos.

Abstract

In this work, we analyze the behavior of the multivariate symmetric uncertainty (MSU) measure through the use of statistical simulation techniques under various mixes of informative and non-informative randomly generated features. Experiments show how the number of attributes, their cardinalities, and the sample size affect the MSU. In this thesis, through observation of results, it is proposed an heuristic condition that preserves good quality in the MSU under different combinations of these three factors, providing a new useful criterion to help drive the process of dimension reduction. -- En el presente trabajo hemos analizado el comportamiento de una versión multivariada de la incertidumbre simétrica a través de técnicas de simulación estadísticas sobre varias combinaciones de atributos informativos y no-informativos generados de forma aleatoria. Los experimentos muestran como el número de atributos, sus cardinalidades y el tamaño muestral afectan al MSU como medida. En esta tesis, mediante la observación de resultados hemos propuesto una condición que preserva una buena calidad en el MSU bajo diferentes combinaciones de los tres factores mencionados, lo cual provee un nuevo y valioso criterio para llevar a cabo el proceso de reducción de dimensionalidad.

Representatividad Muestral en la Incertidumbre Simétrica Multivariada para la Selección de Atributos

TL;DR

Este trabajo analiza la Medida de Incertidumbre Simétrica Multivariada (MSU) para la selección de atributos en espacios de alta dimensionalidad, enfocándose en sesgos derivados de la cardinalidad y del tamaño muestral. Mediante simulaciones Monte Carlo con datos sintéticos generados por el Método de Kononenko y configuraciones XOR, se identifica que MSU hereda sesgos de la ganancia de información y la incertidumbre simétrica, y propone una relación empírica de asociación que vincula los factores clave y garantiza representatividad total de la muestra. Se valida la propuesta a través de pruebas de bondad de ajuste (χ²) para estimar un tamaño muestral mínimo y demostrar que, cuando se cumple la relación m ≈ 10 |clase| ∏ |f_i|, MSU se mantiene estable y menos sesgado. Las contribuciones incluyen la caracterización del sesgo en MSU, la introducción del concepto de representatividad total de la muestra y un marco empírico para estimar el tamaño muestral adecuado en escenarios de reducción de dimensionalidad. Estas ideas pueden orientar la práctica de selección de atributos en conjuntos de datos de alta dimensionalidad, reduciendo el riesgo de sobreajuste y mejorando la detección de interacciones multivariadas entre atributos.

Abstract

In this work, we analyze the behavior of the multivariate symmetric uncertainty (MSU) measure through the use of statistical simulation techniques under various mixes of informative and non-informative randomly generated features. Experiments show how the number of attributes, their cardinalities, and the sample size affect the MSU. In this thesis, through observation of results, it is proposed an heuristic condition that preserves good quality in the MSU under different combinations of these three factors, providing a new useful criterion to help drive the process of dimension reduction. -- En el presente trabajo hemos analizado el comportamiento de una versión multivariada de la incertidumbre simétrica a través de técnicas de simulación estadísticas sobre varias combinaciones de atributos informativos y no-informativos generados de forma aleatoria. Los experimentos muestran como el número de atributos, sus cardinalidades y el tamaño muestral afectan al MSU como medida. En esta tesis, mediante la observación de resultados hemos propuesto una condición que preserva una buena calidad en el MSU bajo diferentes combinaciones de los tres factores mencionados, lo cual provee un nuevo y valioso criterio para llevar a cabo el proceso de reducción de dimensionalidad.
Paper Structure (50 sections, 19 equations, 9 figures, 4 tables)

This paper contains 50 sections, 19 equations, 9 figures, 4 tables.

Figures (9)

  • Figure 1: Los efectos de la variación de la cardinalidad sobre el SU y el MSU para un tamaño muestral de $1000$ instancias.
  • Figure 2: Los efectos de la variación del tamaño muestral sobre el MSU para subconjuntos de atributos individualmente informativos y no-informativos. La cardinalidad de los atributos y la clase es de $2$. El tamaño de los subconjuntos es de $3$ elementos incluida la clase.
  • Figure 3: Los efectos de la variación del tamaño muestral sobre el SU y el MSU para atributos colectivamente informativos mediante XOR con un ruido del $5\%$. La cardinalidad de los atributos y la clase es de $2$.
  • Figure 4: Los efectos de la variación de las cardinalidades univariadas y multivariadas sobre el MSU. La cardinalidad de la clase es $2$ y el tamaño muestral es de $5000$ instancias.
  • Figure 5: La aproximación del tamaño muestral propuesta y el tamaño muestral recomendado empleando la prueba de bondad de ajuste $\chi^2$ basada en el primer $\chi^2_{calculado} > \chi^2_{cr\acute{i}tico}$ con fuente multinomial equiprobable como $H_{0}$.
  • ...and 4 more figures