DreamingComics: A Story Visualization Pipeline via Subject and Layout Customized Generation using Video Models

Patrick Kwon; Chen Chen

DreamingComics: A Story Visualization Pipeline via Subject and Layout Customized Generation using Video Models

Patrick Kwon, Chen Chen

TL;DR

DreamingComics tackles layout-aware story visualization by jointly modeling panel and character placement with an LLM-based layout generator and a Dream-Illustrator built on a pretrained video diffusion-transformer. It introduces RegionalRoPE for region-grounded latent positioning and a masked condition loss to constrain attention to designated regions, enabling multi-subject identity and style preservation within comic layouts. The approach is trained on a curated image-layout and text-layout dataset and leverages FramePack-based fast single-frame customization for efficiency. Empirical results show substantial gains in character consistency (29.2%) and style similarity (36.2%), with strong layout fidelity and favorable user studies, demonstrating a robust framework for controllable, layout-aware story generation.

Abstract

Current story visualization methods tend to position subjects solely by text and face challenges in maintaining artistic consistency. To address these limitations, we introduce DreamingComics, a layout-aware story visualization framework. We build upon a pretrained video diffusion-transformer (DiT) model, leveraging its spatiotemporal priors to enhance identity and style consistency. For layout-based position control, we propose RegionalRoPE, a region-aware positional encoding scheme that re-indexes embeddings based on the target layout. Additionally, we introduce a masked condition loss to further constrain each subject's visual features to their designated region. To infer layouts from natural language scripts, we integrate an LLM-based layout generator trained to produce comic-style layouts, enabling flexible and controllable layout conditioning. We present a comprehensive evaluation of our approach, showing a 29.2% increase in character consistency and a 36.2% increase in style similarity compared to previous methods, while displaying high spatial accuracy. Our project page is available at https://yj7082126.github.io/dreamingcomics/

DreamingComics: A Story Visualization Pipeline via Subject and Layout Customized Generation using Video Models

TL;DR

Abstract

DreamingComics: A Story Visualization Pipeline via Subject and Layout Customized Generation using Video Models

TL;DR

Abstract

Paper Structure

Table of Contents

Figures (7)