Efficiency Meets Fidelity: A Novel Quantization Framework for Stable Diffusion

Shuaiting Li; Juncan Deng; Zeyu Wang; Kedong Xu; Rongtao Deng; Hong Gu; Haibin Shen; Kejie Huang

Efficiency Meets Fidelity: A Novel Quantization Framework for Stable Diffusion

Shuaiting Li, Juncan Deng, Zeyu Wang, Kedong Xu, Rongtao Deng, Hong Gu, Haibin Shen, Kejie Huang

TL;DR

This framework introduces a Serial-to-Parallel pipeline that simultaneously maintains training-inference consistency and ensures optimization stability, and develops several techniques including multi-timestep activation quantization, time information precalculation, inter-layer distillation, and selective freezing to achieve high-fidelity generation in comparison to floating-point models while maintaining quantization efficiency.

Abstract

Text-to-image generation via Stable Diffusion models (SDM) have demonstrated remarkable capabilities. However, their computational intensity, particularly in the iterative denoising process, hinders real-time deployment in latency-sensitive applications. While Recent studies have explored post-training quantization (PTQ) and quantization-aware training (QAT) methods to compress Diffusion models, existing methods often overlook the consistency between results generated by quantized models and those from floating-point models. This consistency is paramount for professional applications where both efficiency and output reliability are essential. To ensure that quantized SDM generates high-quality and consistent images, we propose an efficient quantization framework for SDM. Our framework introduces a Serial-to-Parallel pipeline that simultaneously maintains training-inference consistency and ensures optimization stability. Building upon this foundation, we further develop several techniques including multi-timestep activation quantization, time information precalculation, inter-layer distillation, and selective freezing, to achieve high-fidelity generation in comparison to floating-point models while maintaining quantization efficiency. Through comprehensive evaluation across multiple Stable Diffusion variants (v1-4, v2-1, XL 1.0, and v3), our method demonstrates superior performance over state-of-the-art approaches with shorter training times. Under W4A8 quantization settings, we achieve significant improvements in both distribution similarity and visual fidelity, while preserving a high image quality.

Efficiency Meets Fidelity: A Novel Quantization Framework for Stable Diffusion

TL;DR

Abstract

Efficiency Meets Fidelity: A Novel Quantization Framework for Stable Diffusion

TL;DR

Abstract

Paper Structure

Table of Contents

Figures (9)