RelationAdapter: Learning and Transferring Visual Relation with Diffusion Transformers

Yan Gong; Yiren Song; Yicheng Li; Chenglin Li; Yin Zhang

RelationAdapter: Learning and Transferring Visual Relation with Diffusion Transformers

Yan Gong, Yiren Song, Yicheng Li, Chenglin Li, Yin Zhang

TL;DR

RelationAdapter introduces a lightweight visual-prompt editing framework for Diffusion Transformers that decouples edit-intent extraction from image generation. By employing a dual-branch RelationAdapter and an In-Context Editor with position encoding cloning and LoRA fine-tuning, the method achieves strong generalization across 218 editing tasks using minimal training samples. A large-scale Relation252K dataset enables robust evaluation of transfer and adaptation to unseen edits. Experimental results show consistent gains in pixel fidelity, semantic similarity, and editing consistency over state-of-the-art baselines, with efficient parameter usage and scalable training.

Abstract

Inspired by the in-context learning mechanism of large language models (LLMs), a new paradigm of generalizable visual prompt-based image editing is emerging. Existing single-reference methods typically focus on style or appearance adjustments and struggle with non-rigid transformations. To address these limitations, we propose leveraging source-target image pairs to extract and transfer content-aware editing intent to novel query images. To this end, we introduce RelationAdapter, a lightweight module that enables Diffusion Transformer (DiT) based models to effectively capture and apply visual transformations from minimal examples. We also introduce Relation252K, a comprehensive dataset comprising 218 diverse editing tasks, to evaluate model generalization and adaptability in visual prompt-driven scenarios. Experiments on Relation252K show that RelationAdapter significantly improves the model's ability to understand and transfer editing intent, leading to notable gains in generation quality and overall editing performance.

RelationAdapter: Learning and Transferring Visual Relation with Diffusion Transformers

TL;DR

Abstract

RelationAdapter: Learning and Transferring Visual Relation with Diffusion Transformers

TL;DR

Abstract

Paper Structure

Table of Contents

Figures (14)