BEAST: Efficient Tokenization of B-Splines Encoded Action Sequences for Imitation Learning

Hongyi Zhou; Weiran Liao; Xi Huang; Yucheng Tang; Fabian Otto; Xiaogang Jia; Xinkai Jiang; Simon Hilber; Ge Li; Qian Wang; Ömer Erdinç Yağmurlu; Nils Blank; Moritz Reuss; Rudolf Lioutikov

BEAST: Efficient Tokenization of B-Splines Encoded Action Sequences for Imitation Learning

Hongyi Zhou, Weiran Liao, Xi Huang, Yucheng Tang, Fabian Otto, Xiaogang Jia, Xinkai Jiang, Simon Hilber, Ge Li, Qian Wang, Ömer Erdinç Yağmurlu, Nils Blank, Moritz Reuss, Rudolf Lioutikov

TL;DR

BEAST tackles the inefficiency of generating high-frequency continuous robot actions by introducing a B-spline encoded action sequence tokenizer that yields fixed-length tokens without requiring tokenizer training. By representing trajectories with B-spline control points and enabling parallel decoding, BEAST achieves fast inference while ensuring smooth transitions between action chunks. The approach is demonstrated across discrete and continuous token variants (BEAST-F, BEAST-D, BEAST-ACT) and multiple architectures, with strong performance on simulation benchmarks and real-world robots, and notable gains in training efficiency. This tokenizer offers a scalable, plug-and-play primitive for imitation learning in robotics, potentially enabling more responsive and robust autonomous manipulation without extensive tokenizer-induced training complexity.

Abstract

We present the B-spline Encoded Action Sequence Tokenizer (BEAST), a novel action tokenizer that encodes action sequences into compact discrete or continuous tokens using B-splines. In contrast to existing action tokenizers based on vector quantization or byte pair encoding, BEAST requires no separate tokenizer training and consistently produces tokens of uniform length, enabling fast action sequence generation via parallel decoding. Leveraging our B-spline formulation, BEAST inherently ensures generating smooth trajectories without discontinuities between adjacent segments. We extensively evaluate BEAST by integrating it with three distinct model architectures: a Variational Autoencoder (VAE) with continuous tokens, a decoder-only Transformer with discrete tokens, and Florence-2, a pretrained Vision-Language Model with an encoder-decoder architecture, demonstrating BEAST's compatibility and scalability with large pretrained models. We evaluate BEAST across three established benchmarks consisting of 166 simulated tasks and on three distinct robot settings with a total of 8 real-world tasks. Experimental results demonstrate that BEAST (i) significantly reduces both training and inference computational costs, and (ii) consistently generates smooth, high-frequency control signals suitable for continuous control tasks while (iii) reliably achieves competitive task success rates compared to state-of-the-art methods.

BEAST: Efficient Tokenization of B-Splines Encoded Action Sequences for Imitation Learning

TL;DR

Abstract

BEAST: Efficient Tokenization of B-Splines Encoded Action Sequences for Imitation Learning

TL;DR

Abstract

Paper Structure

Table of Contents

Figures (12)