Table of Contents
Fetching ...

$π$-yalli: un nouveau corpus pour le nahuatl

Juan-Manuel Torres-Moreno, Juan-José Guzmán-Landa, Graham Ranger, Martha Lorena Avendaño Garrido, Miguel Figueroa-Saavedra, Ligia Quintana-Torres, Carlos-Emiliano González-Gallardo, Elvys Linhares Pontes, Patricia Velázquez Morales, Luis-Gil Moreno Jiménez

TL;DR

π-yalli est un corpus Nahuatl conçu dans le cadre du projet NAHU$^2$ pour soutenir le développement de ressources NLP et de modèles de langue dans une langue à ressources limitées. Le corpus réunit environ $1.912$M tokens sur des variétés mexicaines, et sera publié via CQPweb puis enrichi par des annotations grammaticales; les modèles envisagés passent de Word2Vec et FastText à des variantes BERT$^L$, dont un BERT spécifique Nahuatl (BERTL). L’évaluation se base sur un protocole sémantique utilisant $W$ de Kendall et $H$ de Shannon sur des rangs de 23 références et 5 candidats par référence, avec 27 annotateurs; les premiers résultats indiquent une concordance modérée et des défis liés à la variabilité linguistique. L’étude propose d’améliorer les méthodes d’évaluation et d’élargir les tâches TAL, afin de rendre les outils Nahuatl plus accessibles et performants, et d’étendre l’usage du corpus au sein des communautés nahuaphones et du milieu académique.

Abstract

The NAHU$^2$ project is a Franco-Mexican collaboration aimed at building the $π$-YALLI corpus adapted to machine learning, which will subsequently be used to develop computer resources for the Nahuatl language. Nahuatl is a language with few computational resources, even though it is a living language spoken by around 2 million people. We have decided to build $π$-YALLI, a corpus that will enable to carry out research on Nahuatl in order to develop Language Models (LM), whether dynamic or not, which will make it possible to in turn enable the development of Natural Language Processing (NLP) tools such as: a) a grapheme unifier, b) a word segmenter, c) a POS grammatical analyser, d) a content-based Automatic Text Summarization; and possibly, e) a translator translator (probabilistic or learning-based).

$π$-yalli: un nouveau corpus pour le nahuatl

TL;DR

π-yalli est un corpus Nahuatl conçu dans le cadre du projet NAHU pour soutenir le développement de ressources NLP et de modèles de langue dans une langue à ressources limitées. Le corpus réunit environ M tokens sur des variétés mexicaines, et sera publié via CQPweb puis enrichi par des annotations grammaticales; les modèles envisagés passent de Word2Vec et FastText à des variantes BERT, dont un BERT spécifique Nahuatl (BERTL). L’évaluation se base sur un protocole sémantique utilisant de Kendall et de Shannon sur des rangs de 23 références et 5 candidats par référence, avec 27 annotateurs; les premiers résultats indiquent une concordance modérée et des défis liés à la variabilité linguistique. L’étude propose d’améliorer les méthodes d’évaluation et d’élargir les tâches TAL, afin de rendre les outils Nahuatl plus accessibles et performants, et d’étendre l’usage du corpus au sein des communautés nahuaphones et du milieu académique.

Abstract

The NAHU project is a Franco-Mexican collaboration aimed at building the -YALLI corpus adapted to machine learning, which will subsequently be used to develop computer resources for the Nahuatl language. Nahuatl is a language with few computational resources, even though it is a living language spoken by around 2 million people. We have decided to build -YALLI, a corpus that will enable to carry out research on Nahuatl in order to develop Language Models (LM), whether dynamic or not, which will make it possible to in turn enable the development of Natural Language Processing (NLP) tools such as: a) a grapheme unifier, b) a word segmenter, c) a POS grammatical analyser, d) a content-based Automatic Text Summarization; and possibly, e) a translator translator (probabilistic or learning-based).

Paper Structure

This paper contains 10 sections, 2 equations, 3 figures, 1 table.

Figures (3)

  • Figure 1: Principales variétés linguistiques du nahuatl parlées au Mexique.
  • Figure 2: Coefficient $W$ de Kendall qui mesure l'accord entre les annotateurs, selon les termes de référence.
  • Figure 3: Métrique de Shannon $H$ normalisée, qui mesure l'accord entre les annotateurs selon les termes de référence.