Table of Contents
Fetching ...

Ética para LLMs: o compartilhamento de dados sociolinguísticos

Marta Deysiane Alves Faria Sousa, Raquel Meister Ko. Freitag, Túlio Sousa de Gois

TL;DR

Este trabalho aborda as questões éticas envolvidas na coleta e compartilhamento de dados sociolinguísticos para o treinamento de LLMs, com foco no Brasil e no overlap com diretrizes da UE. Analisa a regulamentação relevante, incluindo a Resolução CNS 510/2016 e a LGPD, e discute a necessidade de consentimento informado, controle de dados e responsabilidade institucional. Propõe diretrizes práticas para o compartilhamento de dados de fala, destacando licenças de uso (especialmente CC BY-NC-SA) e termos de consentimento que permitem retirada e transparência de circulação. O estudo enfatiza a importância de harmonizar ciência aberta com proteção de dados, para garantir uso ético, responsável e sustentável de IA no contexto sociolinguístico brasileiro.

Abstract

The collection of speech data carried out in Sociolinguistics has the potential to enhance large language models due to its quality and representativeness. In this paper, we examine the ethical considerations associated with the gathering and dissemination of such data. Additionally, we outline strategies for addressing the sensitivity of speech data, as it may facilitate the identification of informants who contributed with their speech.

Ética para LLMs: o compartilhamento de dados sociolinguísticos

TL;DR

Este trabalho aborda as questões éticas envolvidas na coleta e compartilhamento de dados sociolinguísticos para o treinamento de LLMs, com foco no Brasil e no overlap com diretrizes da UE. Analisa a regulamentação relevante, incluindo a Resolução CNS 510/2016 e a LGPD, e discute a necessidade de consentimento informado, controle de dados e responsabilidade institucional. Propõe diretrizes práticas para o compartilhamento de dados de fala, destacando licenças de uso (especialmente CC BY-NC-SA) e termos de consentimento que permitem retirada e transparência de circulação. O estudo enfatiza a importância de harmonizar ciência aberta com proteção de dados, para garantir uso ético, responsável e sustentável de IA no contexto sociolinguístico brasileiro.

Abstract

The collection of speech data carried out in Sociolinguistics has the potential to enhance large language models due to its quality and representativeness. In this paper, we examine the ethical considerations associated with the gathering and dissemination of such data. Additionally, we outline strategies for addressing the sensitivity of speech data, as it may facilitate the identification of informants who contributed with their speech.

Paper Structure

This paper contains 5 sections.