Table of Contents
Fetching ...

Résumé abstractif à partir d'une transcription audio

Ilia Derkach

TL;DR

Le papier adresse le problème du coût élevé de l’entraînement des grands modèles en proposant un modèle E2E de résumé audio qui exploite le PEFT (LoRA, AdaLoRA) et la quantification pour un réentraînement efficace. Il démontre, à travers des expériences sur des tâches de résumé et d’ASR, que AdaLoRA surpasse LoRA et peut approcher les performances du fine-tuning complet tout en réduisant considérablement les coûts, avec une granularité optimale autour de r≈16–32. Les analyses sur MBart/T5 et Whisper, ainsi que l’utilisation des jeux Gazeta, How2 et WikiHow, fournissent des preuves empiriques des gains ROUGE et des gains de compression. Enfin, le travail propose un cadre pratique pour construire un système S2T E2E de résumé audio et esquisse des directions futures pour améliorer encore la compression et l’intégration multimodale, afin d’obtenir des résumés plus rapides et plus précis dans des applications réelles.

Abstract

Currently, large language models are gaining popularity, their achievements are used in many areas, ranging from text translation to generating answers to queries. However, the main problem with these new machine learning algorithms is that training such models requires large computing resources that only large IT companies have. To avoid this problem, a number of methods (LoRA, quantization) have been proposed so that existing models can be effectively fine-tuned for specific tasks. In this paper, we propose an E2E (end to end) audio summarization model using these techniques. In addition, this paper examines the effectiveness of these approaches to the problem under consideration and draws conclusions about the applicability of these methods.

Résumé abstractif à partir d'une transcription audio

TL;DR

Le papier adresse le problème du coût élevé de l’entraînement des grands modèles en proposant un modèle E2E de résumé audio qui exploite le PEFT (LoRA, AdaLoRA) et la quantification pour un réentraînement efficace. Il démontre, à travers des expériences sur des tâches de résumé et d’ASR, que AdaLoRA surpasse LoRA et peut approcher les performances du fine-tuning complet tout en réduisant considérablement les coûts, avec une granularité optimale autour de r≈16–32. Les analyses sur MBart/T5 et Whisper, ainsi que l’utilisation des jeux Gazeta, How2 et WikiHow, fournissent des preuves empiriques des gains ROUGE et des gains de compression. Enfin, le travail propose un cadre pratique pour construire un système S2T E2E de résumé audio et esquisse des directions futures pour améliorer encore la compression et l’intégration multimodale, afin d’obtenir des résumés plus rapides et plus précis dans des applications réelles.

Abstract

Currently, large language models are gaining popularity, their achievements are used in many areas, ranging from text translation to generating answers to queries. However, the main problem with these new machine learning algorithms is that training such models requires large computing resources that only large IT companies have. To avoid this problem, a number of methods (LoRA, quantization) have been proposed so that existing models can be effectively fine-tuned for specific tasks. In this paper, we propose an E2E (end to end) audio summarization model using these techniques. In addition, this paper examines the effectiveness of these approaches to the problem under consideration and draws conclusions about the applicability of these methods.

Paper Structure

This paper contains 19 sections, 18 equations, 6 figures, 8 tables.

Figures (6)

  • Figure 1: Représentation schématique de LoRA. Les pondérations $W$ sont figées, tandis que $\Delta W = A\cdot B$
  • Figure 2: Courbe d'apprentissage pour l'ajustement fin des modèles MBart et T5 avec LoRA et différents $r$
  • Figure 3: Métrique ROUGE-1 pour l'ajustement fin des modèles MBart et T5 avec des adaptateurs de $r$ différents, avec le jeu de données Gazeta
  • Figure 4: Métrique ROUGE-1 pour l'ajustement fin des modèles MBart et T5 avec des adaptateurs de $r$ différents, avec WikiHow Ensemble de données
  • Figure 5: Rendement d'erreur d'exécution (WER) lors du réglage fin du modèle Whisper avec différentes pondérations
  • ...and 1 more figures