Cosmos-LLaVA: Chatting with the Visual Cosmos-LLaVA: Görselle Sohbet Etmek

Ahmed Zeer; Eren Dogan; Yusuf Erdem; Elif Ince; Osama Shbib; M. Egemen Uzun; Atahan Uz; M. Kaan Yuce; H. Toprak Kesgin; M. Fatih Amasyali

Cosmos-LLaVA: Chatting with the Visual Cosmos-LLaVA: Görselle Sohbet Etmek

Ahmed Zeer, Eren Dogan, Yusuf Erdem, Elif Ince, Osama Shbib, M. Egemen Uzun, Atahan Uz, M. Kaan Yuce, H. Toprak Kesgin, M. Fatih Amasyali

TL;DR

Bu çalışma, Türkçe görsel talimat modellerinin gelişimini hedefleyerek CosmosLLaVA mimarisini, farklı veri kümelerini ve ince ayar stratejilerini sistematik olarak karşılaştırır. Üç ana bileşenli mimaride (Görüntü Kodlayıcısı, Projeksiyon Matrisi, Büyük Dil Modeli) yalnızca Projeksiyon Matrisi ön eğitimde sabit tutulurken ince ayarda iki bileşen birlikte güncellenir; CosmosVQA_P ve CosmosVQA_F veri kümeleriyle farklı eğitim senaryoları kurulur. GPT-4o ve insan Elo temelli çoklu hakem değerlendirmeleriyle yürütülen geniş bir analiz, mimari ve veri kümesi seçimlerinin görevler arasındaki performansı nasıl değiştirdiğini ortaya koyar; özellikle CosmosVQA_F ile ince ayarın OCR ve genel performanslarda öne çıktığı gözlemlenir. Bu çalışma, açık kaynak veri setleriyle Türkçe görsel dil modellemesi için ilk önemli adımı sağlar ve ileride veri çeşitlerinin artırılması ile özelleştirilmiş çoklu görev modellerinin geliştirilmesini hedefler.

Abstract

In this study, a Turkish visual instruction model was developed and various model architectures and dataset combinations were analysed to improve the performance of this model. The Cosmos-LLaVA model, which is built by combining different large language models and image coders, is designed to overcome the deficiencies in the Turkish language. In the experiments, the effects of fine-tuning with various datasets on the model performance are analysed in detail. The results show that model architecture and dataset selection have a significant impact on performance. Bu çalışmada bir Türkçe görsel talimat modeli geliştirilerek bu modelin performansını artırmaya yönelik çeşitli model mimarileri ve veri kümesi kombinasyonları derinlemesine incelenmiştir. Farklı büyük dil modelleri ve görüntü kodlayıcılarının bir araya getirilmesiyle oluşturulan Cosmos-LLaVA modeli, Türkçe dilindeki eksiklikleri gidermeye yönelik olarak tasarlanmıştır. Yapılan deneylerde, çeşitli veri kümeleri ile yapılan ince ayarların model performansını nasıl etkilediği detaylı olarak ele alınmıştır. Sonuçlar, model mimarisi ve veri kümesi seçiminin performans üzerinde önemli bir etkiye sahip olduğunu göstermektedir.

Cosmos-LLaVA: Chatting with the Visual Cosmos-LLaVA: Görselle Sohbet Etmek

TL;DR

Abstract

Cosmos-LLaVA: Chatting with the Visual Cosmos-LLaVA: Görselle Sohbet Etmek

TL;DR

Abstract

Paper Structure

Table of Contents

Figures (2)