Evaluating Cross-Lingual Classification Approaches Enabling Topic Discovery for Multilingual Social Media Data

Deepak Uniyal; Md Abul Bashar; Richi Nayak

Evaluating Cross-Lingual Classification Approaches Enabling Topic Discovery for Multilingual Social Media Data

Deepak Uniyal, Md Abul Bashar, Richi Nayak

TL;DR

This study investigates how different approaches for cross-lingual text classification can support reliable analysis of global conversations, using hydrogen energy as a case study and highlights key trade-offs between translation and multilingual approaches.

Abstract

Analysing multilingual social media discourse remains a major challenge in natural language processing, particularly when large-scale public debates span across diverse languages. This study investigates how different approaches for cross-lingual text classification can support reliable analysis of global conversations. Using hydrogen energy as a case study, we analyse a decade-long dataset of over nine million tweets in English, Japanese, Hindi, and Korean (2013--2022) for topic discovery. The online keyword-driven data collection results in a significant amount of irrelevant content. We explore four approaches to filter relevant content: (1) translating English annotated data into target languages for building language-specific models for each target language, (2) translating unlabelled data appearing from all languages into English for creating a single model based on English annotations, (3) applying English fine-tuned multilingual transformers directly to each target language data, and (4) a hybrid strategy that combines translated annotations with multilingual training. Each approach is evaluated for its ability to filter hydrogen-related tweets from noisy keyword-based collections. Subsequently, topic modeling is performed to extract dominant themes within the relevant subsets. The results highlight key trade-offs between translation and multilingual approaches, offering actionable insights into optimising cross-lingual pipelines for large-scale social media analysis.

Evaluating Cross-Lingual Classification Approaches Enabling Topic Discovery for Multilingual Social Media Data

TL;DR

Abstract

Paper Structure (16 sections, 3 figures, 3 tables)

This paper contains 16 sections, 3 figures, 3 tables.

Introduction
Literature Review
Methodology
Data Collection and Preprocessing
Multilingual Relevance Classification
Experimental setup
Approach 1: Monolingual Models
Approach 2: English-only Model
Approach 3: Multilingual Model
Approach 4: Hybrid Multilingual Model
Topic Modelling
Results and Discussion
Performance Analysis of Cross-Lingual Relevance Classification Approaches
Temporal Distribution of Relevant Tweets Across Classification Approaches
Topic Modeling
...and 1 more sections

Figures (3)

Figure 1: Architecture of the proposed multi-step methodology, including data collection, data preprocessing, and relevance classification.
Figure 2: Topic Modelling 2013-2022 on a line graph showing the trending themes across multiple languages
Figure 3: Topic Modelling 2013-2022 on a bar graph showing the trending themes across multiple languages

Evaluating Cross-Lingual Classification Approaches Enabling Topic Discovery for Multilingual Social Media Data

TL;DR

Abstract

Evaluating Cross-Lingual Classification Approaches Enabling Topic Discovery for Multilingual Social Media Data

Authors

TL;DR

Abstract

Table of Contents

Figures (3)