Exploring Diverse Methods in Visual Question Answering

Panfeng Li; Qikai Yang; Xieming Geng; Wenjing Zhou; Zhicheng Ding; Yi Nian

Exploring Diverse Methods in Visual Question Answering

Panfeng Li, Qikai Yang, Xieming Geng, Wenjing Zhou, Zhicheng Ding, Yi Nian

Abstract

This study explores innovative methods for improving Visual Question Answering (VQA) using Generative Adversarial Networks (GANs), autoencoders, and attention mechanisms. Leveraging a balanced VQA dataset, we investigate three distinct strategies. Firstly, GAN-based approaches aim to generate answer embeddings conditioned on image and question inputs, showing potential but struggling with more complex tasks. Secondly, autoencoder-based techniques focus on learning optimal embeddings for questions and images, achieving comparable results with GAN due to better ability on complex questions. Lastly, attention mechanisms, incorporating Multimodal Compact Bilinear pooling (MCB), address language priors and attention modeling, albeit with a complexity-performance trade-off. This study underscores the challenges and opportunities in VQA and suggests avenues for future research, including alternative GAN formulations and attentional mechanisms.

Exploring Diverse Methods in Visual Question Answering

Abstract

Paper Structure (8 sections, 4 figures, 2 tables)

This paper contains 8 sections, 4 figures, 2 tables.

Introduction
GAN BASED MECHANISM
Architecture
Training
AutoEncoder Based Mechanism
Attention Based Mechanism
Results
Conclusion

Figures (4)

Figure 1: High Level Architecture of GAN Based System
Figure 2: High Level Architecture of AutoEncoder Based System
Figure 3: High Level Architecture of Attention Based System
Figure 4: Qualitative Results of Visual Question Answering

Exploring Diverse Methods in Visual Question Answering

Abstract

Exploring Diverse Methods in Visual Question Answering

Authors

Abstract

Table of Contents

Figures (4)