Receding-Horizon Policy Gradient for Polytopic Controller Synthesis

Shiva Shakeri; Péter Baranyi; Mehran Mesbahi

Receding-Horizon Policy Gradient for Polytopic Controller Synthesis

Shiva Shakeri, Péter Baranyi, Mehran Mesbahi

Abstract

We propose the Polytopic Receding-Horizon Policy Gradient (P-RHPG) algorithm for synthesizing Parallel Distributed Compensation (PDC) controllers via Tensor Product (TP) model transformation. Standard LMI-based PDC synthesis grows increasingly conservative as model fidelity improves; P-RHPG instead solves a finite-horizon integrated cost via backward-stage decomposition. The key result is that each stage subproblem is a strongly convex quadratic in the vertex gains, a consequence of the linear independence of the HOSVD weighting functions, guaranteeing a unique global minimizer and linear convergence of gradient descent from any initialization. With zero terminal cost, the optimal cost increases monotonically to a finite limit and the gain sequence remains bounded; terminal costs satisfying a mild Lyapunov condition yield non-increasing convergence. Experiments on an aeroelastic wing benchmark confirm convergence to a unique infinite-horizon optimum across all tested terminal cost choices and near-optimal performance relative to the pointwise Riccati lower bound.

Receding-Horizon Policy Gradient for Polytopic Controller Synthesis

Abstract

Receding-Horizon Policy Gradient for Polytopic Controller Synthesis

Abstract

Paper Structure

Table of Contents

Key Result

Figures (3)

Theorems & Definitions (19)