Robust Counterfactual Explanations under Model Multiplicity Using Multi-Objective Optimization

Keita Kinjo

Robust Counterfactual Explanations under Model Multiplicity Using Multi-Objective Optimization

Keita Kinjo

TL;DR

This work tackles robustness of counterfactual explanations when multiple models with similar accuracy exist, by introducing Pareto-improvement and multi-objective optimization to generate robust CEs. It formalizes the problem as a vector-valued objective over $m$ models with a distance constraint from a base instance and derives multiple Pareto-optimal counterfactuals via NSGA-II. The authors define evaluation metrics (Val, Dissim, Plaus, TIR) and validate the approach on both simulated nonlinear data and real-world educational data, demonstrating improved robustness and practical applicability. The method supports regression targets and flexible constraints, enabling diverse explanations that align with user preferences and safe decision-making in high-stakes settings.

Abstract

In recent years, explainability in machine learning has gained importance. In this context, counterfactual explanation (CE), which is an explanation method that uses examples, has attracted attention. However, it has been pointed out that CE is not robust when there are multiple machine-learning models with similar accuracy. These problems are important when using machine learning to make safe decisions. In this paper, we propose robust CEs that introduce a new viewpoint -- Pareto improvement -- and a method that uses multi-objective optimization to generate it. To evaluate the proposed method, we conducted experiments using both simulated and real data. The results demonstrate that the proposed method is both robust and practical. This study highlights the potential of ensuring robustness in decision-making by applying the concept of social welfare. We believe that this research can serve as a valuable foundation for various fields, including explainability in machine learning, decision-making, and action planning based on machine learning.

Robust Counterfactual Explanations under Model Multiplicity Using Multi-Objective Optimization

TL;DR

models with a distance constraint from a base instance and derives multiple Pareto-optimal counterfactuals via NSGA-II. The authors define evaluation metrics (Val, Dissim, Plaus, TIR) and validate the approach on both simulated nonlinear data and real-world educational data, demonstrating improved robustness and practical applicability. The method supports regression targets and flexible constraints, enabling diverse explanations that align with user preferences and safe decision-making in high-stakes settings.

Abstract

Paper Structure (12 sections, 12 equations, 4 figures, 8 tables)

This paper contains 12 sections, 12 equations, 4 figures, 8 tables.

Introduction
Method
Problem Setting
Multi-Objective Optimization
Proposed Method
Evaluation Method
Experiment
Experiment 1: Simulation Data
(1) Model with interactions and nonlinearity
(2) Model with interactions and nonlinearity
Experiment 2: Real Data
Discussion

Figures (4)

Figure 1: Average of averages of CEs, including base data (vertical axis: average; error bars: standard deviation)
Figure 2: Average of averages of CEs, excluding base data (vertical axis: average; error bars: standard deviation)
Figure 3: Pareto front(red: base data; blue: CEs)
Figure 4: Average of CEs (vertical axis: average; error bars: standard deviation)

Robust Counterfactual Explanations under Model Multiplicity Using Multi-Objective Optimization

TL;DR

Abstract

Robust Counterfactual Explanations under Model Multiplicity Using Multi-Objective Optimization

Authors

TL;DR

Abstract

Table of Contents

Figures (4)