Beyond Generating Code: Evaluating GPT on a Data Visualization Course

Chen Zhu-Tian; Chenyang Zhang; Qianwen Wang; Jakob Troidl; Simon Warchol; Johanna Beyer; Nils Gehlenborg; Hanspeter Pfister

Beyond Generating Code: Evaluating GPT on a Data Visualization Course

Chen Zhu-Tian, Chenyang Zhang, Qianwen Wang, Jakob Troidl, Simon Warchol, Johanna Beyer, Nils Gehlenborg, Hanspeter Pfister

TL;DR

This work probes GPT's capabilities in data visualization beyond code generation by evaluating GPT-3.5 and GPT-4 on Harvard CS171 assignments using zero-shot prompts and Rubrics, with grading by three teaching fellows. It reports GPT-4 achieving around 80% on quizzes and homework, and a 70% accuracy in distinguishing GPT from human submissions, while demonstrating broader tasks such as data cleaning, reading and interacting with SVG visualizations, and generating data stories. The study also includes qualitative observations and an open-ended exploration of the final project workflow, revealing both the potential and the limitations of GPT in visualization tasks, such as token limits, hallucinations, and difficulty linking multiple files. The authors argue for integrating AI tools into visualization education and redesigning curricula to leverage GPT for broader visualization tasks, while ensuring critical evaluation of outputs and ethical considerations.

Abstract

This paper presents an empirical evaluation of the performance of the Generative Pre-trained Transformer (GPT) model in Harvard's CS171 data visualization course. While previous studies have focused on GPT's ability to generate code for visualizations, this study goes beyond code generation to evaluate GPT's abilities in various visualization tasks, such as data interpretation, visualization design, visual data exploration, and insight communication. The evaluation utilized GPT-3.5 and GPT-4 to complete assignments of CS171, and included a quantitative assessment based on the established course rubrics, a qualitative analysis informed by the feedback of three experienced graders, and an exploratory study of GPT's capabilities in completing border visualization tasks. Findings show that GPT-4 scored 80% on quizzes and homework, and TFs could distinguish between GPT- and human-generated homework with 70% accuracy. The study also demonstrates GPT's potential in completing various visualization tasks, such as data cleanup, interaction with visualizations, and insight communication. The paper concludes by discussing the strengths and limitations of GPT in data visualization, potential avenues for incorporating GPT in broader visualization tasks, and the need to redesign visualization education.

Beyond Generating Code: Evaluating GPT on a Data Visualization Course

TL;DR

Abstract

Beyond Generating Code: Evaluating GPT on a Data Visualization Course

Authors

TL;DR

Abstract

Table of Contents

Figures (3)