Ética para LLMs: o compartilhamento de dados sociolinguísticos
Marta Deysiane Alves Faria Sousa, Raquel Meister Ko. Freitag, Túlio Sousa de Gois
TL;DR
Este trabalho aborda as questões éticas envolvidas na coleta e compartilhamento de dados sociolinguísticos para o treinamento de LLMs, com foco no Brasil e no overlap com diretrizes da UE. Analisa a regulamentação relevante, incluindo a Resolução CNS 510/2016 e a LGPD, e discute a necessidade de consentimento informado, controle de dados e responsabilidade institucional. Propõe diretrizes práticas para o compartilhamento de dados de fala, destacando licenças de uso (especialmente CC BY-NC-SA) e termos de consentimento que permitem retirada e transparência de circulação. O estudo enfatiza a importância de harmonizar ciência aberta com proteção de dados, para garantir uso ético, responsável e sustentável de IA no contexto sociolinguístico brasileiro.
Abstract
The collection of speech data carried out in Sociolinguistics has the potential to enhance large language models due to its quality and representativeness. In this paper, we examine the ethical considerations associated with the gathering and dissemination of such data. Additionally, we outline strategies for addressing the sensitivity of speech data, as it may facilitate the identification of informants who contributed with their speech.
