Türkçe Dil Modellerinin Performans Karşılaştırması Performance Comparison of Turkish Language Models
Eren Dogan, M. Egemen Uzun, Atahan Uz, H. Emre Seyrek, Ahmed Zeer, Ezgi Sevi, H. Toprak Kesgin, M. Kaan Yuce, M. Fatih Amasyali
TL;DR
Bu çalışma, Türkçe için açık kaynaklı dil modellerinin performansını kapsamlı bir şekilde karşılaştırmayı amaçlar ve 7 modelin bağlamda öğrenme ile soru cevaplama yeteneklerini Türkçe veri kümeleri üzerinde değerlendirir. Türkçe bağlamanlamayı ve QA performansını ölçmek için ARC, HellaSwag, MMLU ve TruthfulQA veri kümelerinin Türkçe varyantları ile birlikte MerveDataset kullanılarak hem otomatik ROUGE bazlı metrikler hem de insan tabanlı Elo/WinPct değerlendirmeleri uygulanır. Bulgular, çok dilli modellerin Türkçe adaptasyonu için talimat veri kümeleriyle ön eğitimin devam ettirilmesinin daha başarılı olabildiğini gösterirken, bağlamda öğrenme performansının QA performansıyla güçlü bir korelasyon göstermediğini ortaya koyar; ayrıca Trendyol modellerinin genel olarak öne çıktığı ve insan değerlendirmesi ile otomatik ölçütler arasında yüksek uyum bulunduğu gözlemlenir. Bu bulgular, açık kaynaklı Türkçe modellerin seçimi ve değerlendirilmelerinde hangi eğitim stratejilerinin daha etkili olabileceğine dair pratik içgörüler sunar ve ileride daha büyük ve daha çeşitli veri kümeleri ile karmaşık senaryolarda durum değerlendirmelerinin yapılmasını önerir.
Abstract
The developments that language models have provided in fulfilling almost all kinds of tasks have attracted the attention of not only researchers but also the society and have enabled them to become products. There are commercially successful language models available. However, users may prefer open-source language models due to cost, data privacy, or regulations. Yet, despite the increasing number of these models, there is no comprehensive comparison of their performance for Turkish. This study aims to fill this gap in the literature. A comparison is made among seven selected language models based on their contextual learning and question-answering abilities. Turkish datasets for contextual learning and question-answering were prepared, and both automatic and human evaluations were conducted. The results show that for question-answering, continuing pretraining before fine-tuning with instructional datasets is more successful in adapting multilingual models to Turkish and that in-context learning performances do not much related to question-answering performances.
