Multimodal Datasets and Benchmarks for Reasoning about Dynamic Spatio-Temporality in Everyday Environments

Takanori Ugai; Kensho Hara; Shusaku Egami; Ken Fukuda

Multimodal Datasets and Benchmarks for Reasoning about Dynamic Spatio-Temporality in Everyday Environments

Takanori Ugai, Kensho Hara, Shusaku Egami, Ken Fukuda

TL;DR

The question answering (QA) dataset measures the extent to which a robot can understand human behavior and the environment in a home setting and is useful in measuring AI's comprehension of daily life.

Abstract

We used a 3D simulator to create artificial video data with standardized annotations, aiming to aid in the development of Embodied AI. Our question answering (QA) dataset measures the extent to which a robot can understand human behavior and the environment in a home setting. Preliminary experiments suggest our dataset is useful in measuring AI's comprehension of daily life. \end{abstract}

Multimodal Datasets and Benchmarks for Reasoning about Dynamic Spatio-Temporality in Everyday Environments

TL;DR

Abstract

Paper Structure (5 sections, 1 figure, 1 table)

This paper contains 5 sections, 1 figure, 1 table.

Introduction
MMDL: Simulation movie and detailed annotation
MMQADL: QA dataset for measuring daily life understanding
Preliminary Experiment
Summary

Figures (1)

Figure 1: Example of video snapshot and action script

Multimodal Datasets and Benchmarks for Reasoning about Dynamic Spatio-Temporality in Everyday Environments

TL;DR

Abstract

Multimodal Datasets and Benchmarks for Reasoning about Dynamic Spatio-Temporality in Everyday Environments

Authors

TL;DR

Abstract

Table of Contents

Figures (1)