Agentic Planning with Reasoning for Image Styling via Offline RL

Subhojyoti Mukherjee; Stefano Petrangeli; Branislav Kveton; Trung Bui; Franck Dernoncourt; Arko Mukherjee

Agentic Planning with Reasoning for Image Styling via Offline RL

Subhojyoti Mukherjee, Stefano Petrangeli, Branislav Kveton, Trung Bui, Franck Dernoncourt, Arko Mukherjee

TL;DR

This paper presents a tool-based agentic RL post-training framework that addresses direct prompt-based editing often fails on complex transformations through structured planning with chain-of-thought reasoning, and enables efficient offline RL post-training on quality-scored trajectories to improve performance.

Abstract

Direct prompt-based editing often fails on complex transformations because vague and subjective prompts often require nuanced understanding of what should be changed in the image. Our core intuition is that leveraging compositional image editing tools rather than direct prompting profits from structured agent-level planning with explicit reasoning, leading to better results. This structured planning framework enables efficient offline RL post-training on quality-scored trajectories to improve performance. We present a tool-based agentic RL post-training framework that addresses this through structured planning with chain-of-thought reasoning. Our key contributions include: (1) A tool-based agentic planning methodology that combines a compositional library of orthogonal primitive transformations, structured context representation, and explicit per-step reasoning to decompose complex styling into interpretable tool sequences. (2) A synthetic data generation pipeline producing three large-scale datasets (each $\sim$10K trajectories) with reasoning chains, plans, and quality scores, as no existing datasets provide such supervision. Our datasets and code are publicly available at the HuggingFace repository. (3) Offline RL training methods for learning planners with reasoning as our core algorithmic contributions, which consistently improve over the Edit-Only baseline in visual quality and instruction following. (4) Comprehensive evaluation across 4B and 8B parameter Qwen3-VL models showing that our methods outperform other baselines in the majority of compositional tasks, validated by human evaluations.

Agentic Planning with Reasoning for Image Styling via Offline RL

TL;DR

Abstract

10K trajectories) with reasoning chains, plans, and quality scores, as no existing datasets provide such supervision. Our datasets and code are publicly available at the HuggingFace repository. (3) Offline RL training methods for learning planners with reasoning as our core algorithmic contributions, which consistently improve over the Edit-Only baseline in visual quality and instruction following. (4) Comprehensive evaluation across 4B and 8B parameter Qwen3-VL models showing that our methods outperform other baselines in the majority of compositional tasks, validated by human evaluations.

Paper Structure (309 sections, 14 equations, 29 figures, 13 tables, 5 algorithms)

This paper contains 309 sections, 14 equations, 29 figures, 13 tables, 5 algorithms.

Introduction
Problem Setup
Four-Stage Structured Editing Pipeline
Compositional Tool Library:
Our Contribution: Stages 1-3
Synthetic Data Generation
Four-Stage Pipeline
Dataset Variants
Human Validation of Dataset Quality
Learning Algorithms
Supervised Learning
Reward-Filtered Training
Direct Preference Optimization
Reward-Weighted Fine-Tuning
Standardized Reward-Weighted
...and 294 more sections

Figures (29)

Figure 1: Synthetic Data Generation Pipeline
Figure 2: Regular Text-4B: $\textsc{SW}$ wins (78.77). Outperforms GPT-4o zero-shot baseline (grey).
Figure 3: Regular Text-8B: $\textsc{SW}$ wins (77.86). Outperforms GPT-4o zero-shot baseline (grey).
Figure 4: Simple Vision-4B: $\textsc{RW}$ dominates with visual grounding (79.33). Outperforms GPT-4o zero-shot baseline (grey).
Figure 5: Complex Vision-8B: $\textsc{DPO}$ wins followed closely by $\textsc{RW}$ and $\textsc{SW}$ on diverse themes (85.41). Outperforms GPT-4o(grey).
...and 24 more figures

Agentic Planning with Reasoning for Image Styling via Offline RL

TL;DR

Abstract

Agentic Planning with Reasoning for Image Styling via Offline RL

Authors

TL;DR

Abstract

Table of Contents

Figures (29)