PAT3D: Physics-Augmented Text-to-3D Scene Generation

Guying Lin; Kemeng Huang; Michael Liu; Ruihan Gao; Hanke Chen; Lyuhao Chen; Beijia Lu; Taku Komura; Yuan Liu; Jun-Yan Zhu; Minchen Li

PAT3D: Physics-Augmented Text-to-3D Scene Generation

Guying Lin, Kemeng Huang, Michael Liu, Ruihan Gao, Hanke Chen, Lyuhao Chen, Beijia Lu, Taku Komura, Yuan Liu, Jun-Yan Zhu, Minchen Li

TL;DR

PAT3D tackles the problem of generating realistic, editable 3D scenes from natural language by tightly integrating vision-language reasoning with differentiable physics. The method introduces a physics-aware initialization and a simulation-in-the-loop optimization that enforces non-interpenetration, gravity-driven stability, and semantic fidelity to the prompt. Empirical results show superior physical plausibility, semantic alignment, and visual quality compared with prior approaches, and demonstrate practical usefulness for scene editing and robotic manipulation. This work advances physically grounded, controllable 3D scene generation and provides simulation-ready assets for downstream tasks.

Abstract

We introduce PAT3D, the first physics-augmented text-to-3D scene generation framework that integrates vision-language models with physics-based simulation to produce physically plausible, simulation-ready, and intersection-free 3D scenes. Given a text prompt, PAT3D generates 3D objects, infers their spatial relations, and organizes them into a hierarchical scene tree, which is then converted into initial conditions for simulation. A differentiable rigid-body simulator ensures realistic object interactions under gravity, driving the scene toward static equilibrium without interpenetrations. To further enhance scene quality, we introduce a simulation-in-the-loop optimization procedure that guarantees physical stability and non-intersection, while improving semantic consistency with the input prompt. Experiments demonstrate that PAT3D substantially outperforms prior approaches in physical plausibility, semantic consistency, and visual quality. Beyond high-quality generation, PAT3D uniquely enables simulation-ready 3D scenes for downstream tasks such as scene editing and robotic manipulation. Code and data will be released upon acceptance.

PAT3D: Physics-Augmented Text-to-3D Scene Generation

TL;DR

Abstract

PAT3D: Physics-Augmented Text-to-3D Scene Generation

TL;DR

Abstract

Paper Structure

Table of Contents

Figures (12)