Multimodal OCR: Parse Anything from Documents

Handong Zheng; Yumeng Li; Kaile Zhang; Liang Xin; Guangwei Zhao; Hao Liu; Jiayu Chen; Jie Lou; Jiyu Qiu; Qi Fu; Rui Yang; Shuo Jiang; Weijian Luo; Weijie Su; Weijun Zhang; Xingyu Zhu; Yabin Li; Yiwei ma; Yu Chen; Zhaohui Yu; Guang Yang; Colin Zhang; Lei Zhang; Yuliang Liu; Xiang Bai

Multimodal OCR: Parse Anything from Documents

Handong Zheng, Yumeng Li, Kaile Zhang, Liang Xin, Guangwei Zhao, Hao Liu, Jiayu Chen, Jie Lou, Jiyu Qiu, Qi Fu, Rui Yang, Shuo Jiang, Weijian Luo, Weijie Su, Weijun Zhang, Xingyu Zhu, Yabin Li, Yiwei ma, Yu Chen, Zhaohui Yu, Guang Yang, Colin Zhang, Lei Zhang, Yuliang Liu, Xiang Bai

Abstract

We present Multimodal OCR (MOCR), a document parsing paradigm that jointly parses text and graphics into unified textual representations. Unlike conventional OCR systems that focus on text recognition and leave graphical regions as cropped pixels, our method, termed dots.mocr, treats visual elements such as charts, diagrams, tables, and icons as first-class parsing targets, enabling systems to parse documents while preserving semantic relationships across elements. It offers several advantages: (1) it reconstructs both text and graphics as structured outputs, enabling more faithful document reconstruction; (2) it supports end-to-end training over heterogeneous document elements, allowing models to exploit semantic relations between textual and visual components; and (3) it converts previously discarded graphics into reusable code-level supervision, unlocking multimodal supervision embedded in existing documents. To make this paradigm practical at scale, we build a comprehensive data engine from PDFs, rendered webpages, and native SVG assets, and train a compact 3B-parameter model through staged pretraining and supervised fine-tuning. We evaluate dots.mocr from two perspectives: document parsing and structured graphics parsing. On document parsing benchmarks, it ranks second only to Gemini 3 Pro on our OCR Arena Elo leaderboard, surpasses existing open-source document parsing systems, and sets a new state of the art of 83.9 on olmOCR Bench. On structured graphics parsing, dots.mocr achieves higher reconstruction quality than Gemini 3 Pro across image-to-SVG benchmarks, demonstrating strong performance on charts, UI layouts, scientific figures, and chemical diagrams. These results show a scalable path toward building large-scale image-to-code corpora for multimodal pretraining. Code and models are publicly available at https://github.com/rednote-hilab/dots.mocr.

Multimodal OCR: Parse Anything from Documents

Abstract

Paper Structure (23 sections, 3 equations, 11 figures, 6 tables)

This paper contains 23 sections, 3 equations, 11 figures, 6 tables.

Introduction
Related Work
Text Parsing
Structured Graphics Parsing
Multimodal OCR
Task Definition
Model Architecture
High-Resolution Vision Encoder.
Structured Language Decoder.
Training Recipe
Data Engine
Automated Evaluation via OCR Arena
Experiments
Document Parsing
Structured Graphics Parsing
...and 8 more sections

Figures (11)

Figure 1: Overview of MOCR. Given a document image, MOCR parses anything on the page into unified, ordered textual representations, capturing both textual and visual structures and enabling faithful reconstruction of the original document.
Figure 2: Overall performance comparison results. (a) reports metrics for image parsing tasks within documents. dots.mocr-svg are further enhanced with additional task-specific training for graphics parsing. (b) reports metrics for general document parsing tasks (olmOCR-Bench, OmniDocBench 1.5, and XDocParse).
Figure 3: Comparison between traditional text-only OCR and MOCR paradigms. Traditional OCR treats graphics as pixels and often discards them, while MOCR parses graphics into structured code (e.g. SVG), enabling faithful reconstruction and broader downstream applications.
Figure 4: Qualitative layout analysis results of dots.mocr on heterogeneous documents. The model identifies and partitions structural elements such as titles, paragraphs, multi-column regions, dense tables, mathematical formulas, scanned text, and handwritten content, demonstrating robust document-level structural understanding across diverse formats and languages.
Figure 5: Parsing results of dots.mocr on full-length web screenshots and real-world scene images. The model preserves global reading order and structured components in long webpage layouts, while accurately recognizing and organizing scene text in complex real-world environments, highlighting generalization beyond conventional OCR benchmarks.
...and 6 more figures

Multimodal OCR: Parse Anything from Documents

Abstract

Multimodal OCR: Parse Anything from Documents

Authors

Abstract

Table of Contents

Figures (11)