Résumé abstractif à partir d'une transcription audio
Ilia Derkach
TL;DR
Le papier adresse le problème du coût élevé de l’entraînement des grands modèles en proposant un modèle E2E de résumé audio qui exploite le PEFT (LoRA, AdaLoRA) et la quantification pour un réentraînement efficace. Il démontre, à travers des expériences sur des tâches de résumé et d’ASR, que AdaLoRA surpasse LoRA et peut approcher les performances du fine-tuning complet tout en réduisant considérablement les coûts, avec une granularité optimale autour de r≈16–32. Les analyses sur MBart/T5 et Whisper, ainsi que l’utilisation des jeux Gazeta, How2 et WikiHow, fournissent des preuves empiriques des gains ROUGE et des gains de compression. Enfin, le travail propose un cadre pratique pour construire un système S2T E2E de résumé audio et esquisse des directions futures pour améliorer encore la compression et l’intégration multimodale, afin d’obtenir des résumés plus rapides et plus précis dans des applications réelles.
Abstract
Currently, large language models are gaining popularity, their achievements are used in many areas, ranging from text translation to generating answers to queries. However, the main problem with these new machine learning algorithms is that training such models requires large computing resources that only large IT companies have. To avoid this problem, a number of methods (LoRA, quantization) have been proposed so that existing models can be effectively fine-tuned for specific tasks. In this paper, we propose an E2E (end to end) audio summarization model using these techniques. In addition, this paper examines the effectiveness of these approaches to the problem under consideration and draws conclusions about the applicability of these methods.
