Table of Contents
Fetching ...

Optimización de la Transmisión de Estados Cuánticos en Cadenas de Qubits usando Deep Reinforcement Learning y Algoritmos Genéticos

Sofía Perón Santana, Ariel Fiuri, Omar Osenda, Martín Domínguez

TL;DR

Este trabajo aborda la optimización de la transferencia de estados cuánticos en cadenas de espines bajo pulsos magnéticos constantes. Compara DRL (Deep Q-Network) y Algoritmos Genéticos para maximizar la fidelidad de transición $P = |(\psi_f, U \psi_0)|^2$ frente a un Hamiltoniano $H_j = H_{XX} + \sum_{k=1}^N B_{k,j} \sigma_k^z$ y una secuencia de acciones discretas. Los resultados muestran que DRL es ventajoso en cadenas cortas, mientras que AG supera en cadenas largas y puede lograr fidelidades $>0.95$ con paralelización; sin embargo, la sensibilidad a hiperparámetros y a las funciones de recompensa/fitness es crítica. La contribución ofrece un marco práctico para el control cuántico con aprendizaje automático y optimización evolutiva, con impacto potencial en hardware cuántico escalable.

Abstract

Quantum state transfer (QST) via homogeneous spin chains plays a crucial role in building scalable quantum hardware. A basic quantum state transmission protocol prepares a state in one qubit and transfers it to another through a channel, seeking to minimize the time and avoid information loss. The fidelity of the process is measured by functions proportional to the transition probability between both states. We approach this optimization problem using constant magnetic pulses and two complementary strategies: deep reinforcement learning, where an agent learns pulse sequences through rewards, and genetic algorithms, which develop candidate solutions through selection and mutation. We analyze the efficiency of both methods and their ability to incorporate physical constraints.

Optimización de la Transmisión de Estados Cuánticos en Cadenas de Qubits usando Deep Reinforcement Learning y Algoritmos Genéticos

TL;DR

Este trabajo aborda la optimización de la transferencia de estados cuánticos en cadenas de espines bajo pulsos magnéticos constantes. Compara DRL (Deep Q-Network) y Algoritmos Genéticos para maximizar la fidelidad de transición frente a un Hamiltoniano y una secuencia de acciones discretas. Los resultados muestran que DRL es ventajoso en cadenas cortas, mientras que AG supera en cadenas largas y puede lograr fidelidades con paralelización; sin embargo, la sensibilidad a hiperparámetros y a las funciones de recompensa/fitness es crítica. La contribución ofrece un marco práctico para el control cuántico con aprendizaje automático y optimización evolutiva, con impacto potencial en hardware cuántico escalable.

Abstract

Quantum state transfer (QST) via homogeneous spin chains plays a crucial role in building scalable quantum hardware. A basic quantum state transmission protocol prepares a state in one qubit and transfers it to another through a channel, seeking to minimize the time and avoid information loss. The fidelity of the process is measured by functions proportional to the transition probability between both states. We approach this optimization problem using constant magnetic pulses and two complementary strategies: deep reinforcement learning, where an agent learns pulse sequences through rewards, and genetic algorithms, which develop candidate solutions through selection and mutation. We analyze the efficiency of both methods and their ability to incorporate physical constraints.

Paper Structure

This paper contains 3 sections, 5 equations, 2 figures.

Figures (2)

  • Figure 1: (a) Representación en forma de circuito cuántico del protocolo de QST. Se inicializa un estado de N qubits con una única excitación y se aplica una serie de acciones$[a_1,a_2,...,a_A]$ que representan compuertas actuando sobre los distintos qubits. (b) Esquema de los sitios de control con los que se efectúan las acciones sobre el sistema. Si $B_{jk}$ es distinto de cero esto implica que el control sobre el k-ésimo qubit en el j-ésimo intervalo de tiempo está encendido.
  • Figure 2: Panel a): Comparación de los valores de fidelidad obtenidos usando DRL (azul) y algoritmos genéticos (rojo). Teniendo en cuenta que ambos métodos son no deterministas, se toma un promedio sobre 10 ejecuciones. En el caso de DRL, se toman las soluciones correspondientes a los 10 valores más altos de fidelidad logrados por el agente. En el caso del algoritmo genético, se ejecuta el algoritmo 10 veces obteniendo 10 soluciones distintas e independientes. Las curvas se corresponden con los valores de fidelidad medios sobre las 10 ejecuciones y con la fidelidad máxima obtenida en los 10 intentos. Se utiliza mutación de tipo swap, crossover uniforme y una población de 2048 individuos, de la cual se seleccionan 205 padres en cada generación usando 'steady-state-selection'. Para el algoritmo de DRL, se utilizan los híper-parámetros del trabajo Zhang2018. Panel b): Se muestra la evolución temporal de la probabilidad de transición para una cadena de 16 espínes para la mejor solución obtenida con ambos algoritmos. Se comparan con la evolución natural (verde), es decir, sin forzamientos.