RFX-Fuse: Breiman and Cutler's Unified ML Engine + Native Explainable Similarity

Chris Kuchar

RFX-Fuse: Breiman and Cutler's Unified ML Engine + Native Explainable Similarity

Chris Kuchar

Abstract

Breiman and Cutler's original Random Forest was designed as a unified ML engine -- not merely an ensemble predictor. Their implementation included classification, regression, unsupervised learning, proximity-based similarity, outlier detection, missing value imputation, and visualization -- capabilities that modern libraries like scikit-learn never implemented. RFX-Fuse (Random Forests X [X=compression] -- Forest Unified Learning and Similarity Engine) delivers Breiman and Cutler's complete vision with native GPU/CPU support. Modern ML pipelines require 5+ separate tools -- XGBoost for prediction, FAISS for similarity, SHAP for explanations, Isolation Forest for outliers, custom code for importance. RFX-Fuse provides a 1 to 2 model object alternative -- a single set of trees grown once. Novel Contributions: (1) Proximity Importance -- native explainable similarity: proximity measures that samples are similar; proximity importance explains why. (2) Dataset-specific imputation validation for general tabular data -- ranking imputation methods by how real the imputed data looks, without ground truth labels.

RFX-Fuse: Breiman and Cutler's Unified ML Engine + Native Explainable Similarity

Abstract

Paper Structure (26 sections, 5 equations, 10 figures, 20 tables)

This paper contains 26 sections, 5 equations, 10 figures, 20 tables.

Introduction
Restored Features: Completing Breiman & Cutler's Vision
Novel Contributions
Extensions of Breiman & Cutler's Original Capabilities
Performance Optimizations
RFX-Fuse Outputs: Four Types of Importance
Method
Architecture Overview
Prototypes
Proximity Importance
Outlier Detection
Breiman-Cutler Formula
Native Sparse Support
Missing Value Imputation
Breiman-Cutler Original Imputation
...and 11 more sections

Figures (10)

Figure 1: Ground truth: user's liked items (rating $\geq$4.0) in held-out test set; 500 users. (a) RFX-Fuse vs FAISS. (b) The Matrix Top-K. (c) Why similar? (RFX-Fuse only*). *RFX-Fuse only: native capability not available in compared tools (FAISS, XGBoost, sklearn RF, Isolation Forest).
Figure 2: RFX-Fuse Unsupervised vs FAISS for similarity retrieval.
Figure 3: RFX-Fuse Supervised (Part 1): ONE model provides predictions, explanations, similarity, and outlier detection---this figure shows predictions and similarity.
Figure 4: RFX-Fuse Supervised (Part 2): ONE model provides predictions, explanations, similarity, and outlier detection---this figure shows outlier detection.
Figure 5: RFX-Fuse re-ranking: Unsupervised $\rightarrow$ Supervised boost comparison.
...and 5 more figures

RFX-Fuse: Breiman and Cutler's Unified ML Engine + Native Explainable Similarity

Abstract

RFX-Fuse: Breiman and Cutler's Unified ML Engine + Native Explainable Similarity

Authors

Abstract

Table of Contents

Figures (10)