Table of Contents
Fetching ...

Análise de ambiguidade linguística em modelos de linguagem de grande escala (LLMs)

Lavínia de Carvalho Moraes, Irene Cristina Silvério, Rafael Alexandre Sousa Marques, Bianca de Castro Anaia, Dandara Freitas de Paula, Maria Carolina Schincariol de Faria, Iury Cleveston, Alana de Santana Correia, Raquel Meister Ko Freitag

TL;DR

Este estudo investiga a ambiguidade linguística em grandes modelos de linguagem com foco no português brasileiro, utilizando um corpus de 120 sentenças distribuídas entre ambiguidade lexical, semântica e sintática. Por meio de quatro tarefas de avaliação — detecção, tipificação, desambiguação e geração de frases ambíguas — e avaliação por seis especialistas, compara as plataformas ChatGPT e Gemini Bard, revelando baixa acurácia e tendência a superinterpretar frases não ambíguas. Os resultados apontam que, embora haja capacidade em algumas frentes, os modelos ainda lutam para explicar as causas da ambiguidade e apresentar desambiguação confiável, especialmente para ambiguidade lexical. O trabalho provê um conjunto de dados específico para o português brasileiro, estabelece uma metodologia de avaliação da ambiguidade em LLMs e evidencia limitações relevantes dos modelos instrucionais, sugerindo a necessidade de pesquisas descritivas adicionais e melhorias para línguas de baixo recurso.

Abstract

Linguistic ambiguity continues to represent a significant challenge for natural language processing (NLP) systems, notwithstanding the advancements in architectures such as Transformers and BERT. Inspired by the recent success of instructional models like ChatGPT and Gemini (In 2023, the artificial intelligence was called Bard.), this study aims to analyze and discuss linguistic ambiguity within these models, focusing on three types prevalent in Brazilian Portuguese: semantic, syntactic, and lexical ambiguity. We create a corpus comprising 120 sentences, both ambiguous and unambiguous, for classification, explanation, and disambiguation. The models capability to generate ambiguous sentences was also explored by soliciting sets of sentences for each type of ambiguity. The results underwent qualitative analysis, drawing on recognized linguistic references, and quantitative assessment based on the accuracy of the responses obtained. It was evidenced that even the most sophisticated models, such as ChatGPT and Gemini, exhibit errors and deficiencies in their responses, with explanations often providing inconsistent. Furthermore, the accuracy peaked at 49.58 percent, indicating the need for descriptive studies for supervised learning.

Análise de ambiguidade linguística em modelos de linguagem de grande escala (LLMs)

TL;DR

Este estudo investiga a ambiguidade linguística em grandes modelos de linguagem com foco no português brasileiro, utilizando um corpus de 120 sentenças distribuídas entre ambiguidade lexical, semântica e sintática. Por meio de quatro tarefas de avaliação — detecção, tipificação, desambiguação e geração de frases ambíguas — e avaliação por seis especialistas, compara as plataformas ChatGPT e Gemini Bard, revelando baixa acurácia e tendência a superinterpretar frases não ambíguas. Os resultados apontam que, embora haja capacidade em algumas frentes, os modelos ainda lutam para explicar as causas da ambiguidade e apresentar desambiguação confiável, especialmente para ambiguidade lexical. O trabalho provê um conjunto de dados específico para o português brasileiro, estabelece uma metodologia de avaliação da ambiguidade em LLMs e evidencia limitações relevantes dos modelos instrucionais, sugerindo a necessidade de pesquisas descritivas adicionais e melhorias para línguas de baixo recurso.

Abstract

Linguistic ambiguity continues to represent a significant challenge for natural language processing (NLP) systems, notwithstanding the advancements in architectures such as Transformers and BERT. Inspired by the recent success of instructional models like ChatGPT and Gemini (In 2023, the artificial intelligence was called Bard.), this study aims to analyze and discuss linguistic ambiguity within these models, focusing on three types prevalent in Brazilian Portuguese: semantic, syntactic, and lexical ambiguity. We create a corpus comprising 120 sentences, both ambiguous and unambiguous, for classification, explanation, and disambiguation. The models capability to generate ambiguous sentences was also explored by soliciting sets of sentences for each type of ambiguity. The results underwent qualitative analysis, drawing on recognized linguistic references, and quantitative assessment based on the accuracy of the responses obtained. It was evidenced that even the most sophisticated models, such as ChatGPT and Gemini, exhibit errors and deficiencies in their responses, with explanations often providing inconsistent. Furthermore, the accuracy peaked at 49.58 percent, indicating the need for descriptive studies for supervised learning.
Paper Structure (12 sections, 1 equation, 2 figures, 5 tables)

This paper contains 12 sections, 1 equation, 2 figures, 5 tables.

Figures (2)

  • Figure 1: Matrizes de Confusão dos modelos ChatGPT e Gemini.
  • Figure 2: Estatísticas obtidas na tarefa de desambiguação. Os resultados mostram que ambos os modelos apresentam muita dificuldade para identificar que as sentenças distratoras não tem ambiguidade. Em 108 casos de teste, ambos os modelos forneceram explicações que não refletiam a interpretação humana, justificando a presença de ambiguidade em sentenças que, na verdade, não a possuíam.