Análise de ambiguidade linguística em modelos de linguagem de grande escala (LLMs)

Lavínia de Carvalho Moraes; Irene Cristina Silvério; Rafael Alexandre Sousa Marques; Bianca de Castro Anaia; Dandara Freitas de Paula; Maria Carolina Schincariol de Faria; Iury Cleveston; Alana de Santana Correia; Raquel Meister Ko Freitag

Análise de ambiguidade linguística em modelos de linguagem de grande escala (LLMs)

Lavínia de Carvalho Moraes, Irene Cristina Silvério, Rafael Alexandre Sousa Marques, Bianca de Castro Anaia, Dandara Freitas de Paula, Maria Carolina Schincariol de Faria, Iury Cleveston, Alana de Santana Correia, Raquel Meister Ko Freitag

TL;DR

Este estudo investiga a ambiguidade linguística em grandes modelos de linguagem com foco no português brasileiro, utilizando um corpus de 120 sentenças distribuídas entre ambiguidade lexical, semântica e sintática. Por meio de quatro tarefas de avaliação — detecção, tipificação, desambiguação e geração de frases ambíguas — e avaliação por seis especialistas, compara as plataformas ChatGPT e Gemini Bard, revelando baixa acurácia e tendência a superinterpretar frases não ambíguas. Os resultados apontam que, embora haja capacidade em algumas frentes, os modelos ainda lutam para explicar as causas da ambiguidade e apresentar desambiguação confiável, especialmente para ambiguidade lexical. O trabalho provê um conjunto de dados específico para o português brasileiro, estabelece uma metodologia de avaliação da ambiguidade em LLMs e evidencia limitações relevantes dos modelos instrucionais, sugerindo a necessidade de pesquisas descritivas adicionais e melhorias para línguas de baixo recurso.

Abstract

Linguistic ambiguity continues to represent a significant challenge for natural language processing (NLP) systems, notwithstanding the advancements in architectures such as Transformers and BERT. Inspired by the recent success of instructional models like ChatGPT and Gemini (In 2023, the artificial intelligence was called Bard.), this study aims to analyze and discuss linguistic ambiguity within these models, focusing on three types prevalent in Brazilian Portuguese: semantic, syntactic, and lexical ambiguity. We create a corpus comprising 120 sentences, both ambiguous and unambiguous, for classification, explanation, and disambiguation. The models capability to generate ambiguous sentences was also explored by soliciting sets of sentences for each type of ambiguity. The results underwent qualitative analysis, drawing on recognized linguistic references, and quantitative assessment based on the accuracy of the responses obtained. It was evidenced that even the most sophisticated models, such as ChatGPT and Gemini, exhibit errors and deficiencies in their responses, with explanations often providing inconsistent. Furthermore, the accuracy peaked at 49.58 percent, indicating the need for descriptive studies for supervised learning.

Análise de ambiguidade linguística em modelos de linguagem de grande escala (LLMs)

TL;DR

Abstract

Paper Structure (12 sections, 1 equation, 2 figures, 5 tables)

This paper contains 12 sections, 1 equation, 2 figures, 5 tables.

Introdução
Processamento da ambiguidade linguística e o processamento da linguagem natural
Ambiguidade Linguística
Modelos de Linguagem
Metodologia
Resultados
Qual é a precisão dos modelos na detecção de ambiguidade linguística em frases do Português Brasileiro?
Qual dos modelos percebe melhor os fenômenos de homonímia e polissemia?
Os modelos conseguem desambiguar adequadamente as sentenças?
Quais padrões de ambiguidade os modelos ChatGPT e Bard demonstram conhecer na geração de frases ambíguas?
Conclusão
Apêndice

Figures (2)

Figure 1: Matrizes de Confusão dos modelos ChatGPT e Gemini.
Figure 2: Estatísticas obtidas na tarefa de desambiguação. Os resultados mostram que ambos os modelos apresentam muita dificuldade para identificar que as sentenças distratoras não tem ambiguidade. Em 108 casos de teste, ambos os modelos forneceram explicações que não refletiam a interpretação humana, justificando a presença de ambiguidade em sentenças que, na verdade, não a possuíam.

Análise de ambiguidade linguística em modelos de linguagem de grande escala (LLMs)

TL;DR

Abstract

Análise de ambiguidade linguística em modelos de linguagem de grande escala (LLMs)

Authors

TL;DR

Abstract

Table of Contents

Figures (2)