DrugR: Optimizing Molecular Drugs through LLM-based Explicit Reasoning

Haoran Liu; Zheni Zeng; Yukun Yan; Yuxuan Chen; Yunduo Xiao

DrugR: Optimizing Molecular Drugs through LLM-based Explicit Reasoning

Haoran Liu, Zheni Zeng, Yukun Yan, Yuxuan Chen, Yunduo Xiao

TL;DR

DrugR tackles the challenge of multi-objective molecular optimization by embedding explicit pharmacological reasoning within an LLM framework. It combines domain-focused continual pretraining, reverse data engineering for supervised fine-tuning, and a Pareto-aware self-balanced reinforcement learning scheme to optimize ADMET properties while preserving core molecular scaffolds, with interpretable rationale for each design step. Across extensive in silico evaluations, DrugR outperforms diverse baselines on overall optimization while maintaining binding affinity and structural similarity, and it demonstrates promising but cautious generalization to new drug classes. The work advances knowledge-driven drug discovery by offering interpretable design rationales and releasing code, data, and models to enable further research and pipeline integration.

Abstract

Molecule generation and optimization is a fundamental task in chemical domain. The rapid development of intelligent tools, especially large language models (LLMs) with powerful knowledge reserves and interactive capabilities, has provided new paradigms for it. Nevertheless, the intrinsic challenge for LLMs lies in the complex implicit relationship between molecular structure and pharmacological properties and the lack of corresponding labeled data. To bridge this gap, we propose DrugR, an LLM-based method that introduces explicit, step-by-step pharmacological reasoning into the optimization process. Our approach integrates domain-specific continual pretraining, supervised fine-tuning via reverse data engineering, and self-balanced multi-granular reinforcement learning. This framework enables DrugR to effectively improve key ADMET properties while preserving the original molecule's core efficacy. Experimental results demonstrate that DrugR achieves comprehensive enhancement across multiple properties without compromising structural similarity or target binding affinity. Importantly, its explicit reasoning process provides clear, interpretable rationales for each optimization step, yielding actionable design insights and advancing toward automated, knowledge-driven scientific discovery. Our code and model checkpoints are open-sourced to foster future research.

DrugR: Optimizing Molecular Drugs through LLM-based Explicit Reasoning

TL;DR

Abstract

Paper Structure (19 sections, 2 equations, 5 figures, 7 tables)

This paper contains 19 sections, 2 equations, 5 figures, 7 tables.

Introduction
Results
Evaluation Metrics
Optimization Results
Binding Affinity Analysis
Adaptation Capability
Ablation and Case Analysis
Discussion
Methods
Related Work
Evaluation Details
Continual pre-training
Supervised fine-tuning
Explicit Reasoning Dataset
Dataset Statistics
...and 4 more sections

Figures (5)

Figure 1: Schematic for explicit reasoning-based molecule optimization.
Figure 2: Binding energy comparison on the corresponding target receptor across different molecular optimization methods. (A) Distribution of predicted binding free energy (docking score, kcal/mol) for optimized molecules obtained by each method on their designated targets. (B) Mean predicted binding free energy with standard error bars. Lower values indicate stronger predicted binding.
Figure 3: High-quality case studies for three therapeutic classes.
Figure 4: The three-stage training process of DrugR.
Figure 5: Multi-objective training dynamics under Pareto-aware self-balancing. Step-wise objective means over training iterations (computed over all sampled trajectories). Top: reasoning objectives (Target-property F1, LMS, and reasoning richness). Bottom: SMILES-side objectives (overall optimization score, fingerprint similarity, and binding energy; lower binding energy is better and is shown on the right axis). The curves demonstrate stable, non-degenerate co-improvement across all six objectives, consistent with our two-level balancing scheme.

DrugR: Optimizing Molecular Drugs through LLM-based Explicit Reasoning

TL;DR

Abstract

DrugR: Optimizing Molecular Drugs through LLM-based Explicit Reasoning

Authors

TL;DR

Abstract

Table of Contents

Figures (5)