Testimole-Conversational: A 30-Billion-Word Italian Discussion Board Corpus (1996-2024) for Language Modeling and Sociolinguistic Research

Matteo Rinaldi; Rossella Varvara; Viviana Patti

Testimole-Conversational: A 30-Billion-Word Italian Discussion Board Corpus (1996-2024) for Language Modeling and Sociolinguistic Research

Matteo Rinaldi, Rossella Varvara, Viviana Patti

TL;DR

A massive collection of discussion boards messages in the Italian language, more than 30B word-tokens (1996-2024), captures a rich variety of computer-mediated communication, offering insights into informal written Italian, discourse dynamics, and online social interaction in wide time span.

Abstract

We present "Testimole-conversational" a massive collection of discussion boards messages in the Italian language. The large size of the corpus, more than 30B word-tokens (1996-2024), renders it an ideal dataset for native Italian Large Language Models'pre-training. Furthermore, discussion boards' messages are a relevant resource for linguistic as well as sociological analysis. The corpus captures a rich variety of computer-mediated communication, offering insights into informal written Italian, discourse dynamics, and online social interaction in wide time span. Beyond its relevance for NLP applications such as language modelling, domain adaptation, and conversational analysis, it also support investigations of language variation and social phenomena in digital communication. The resource will be made freely available to the research community.

Testimole-Conversational: A 30-Billion-Word Italian Discussion Board Corpus (1996-2024) for Language Modeling and Sociolinguistic Research

TL;DR

Abstract

Paper Structure (14 sections, 5 figures)

This paper contains 14 sections, 5 figures.

Introduction
Related work
The Testimole-conversational resource
Discussion boards
Usenet
Forums
Collection methodology
Corpus statistics
The Testimole dataset
Limitations
Conclusion
Ethical considerations
Bibliographical References
Language Resource References

Figures (5)

Figure 1: Total size per year. Forum overtakes Usenet around 2004
Figure 2: Usenet - Number of tokens per year
Figure 3: Forums - Number of tokens per year
Figure 4: Top 50 newsgroups by total character count (all periods combined).
Figure 6: Proportion of use of six words across time in the TestiMole-conversational corpus.

Testimole-Conversational: A 30-Billion-Word Italian Discussion Board Corpus (1996-2024) for Language Modeling and Sociolinguistic Research

TL;DR

Abstract

Testimole-Conversational: A 30-Billion-Word Italian Discussion Board Corpus (1996-2024) for Language Modeling and Sociolinguistic Research

Authors

TL;DR

Abstract

Table of Contents

Figures (5)