Punctuation Prediction for Polish Texts using Transformers

Jakub Pokrywka

Punctuation Prediction for Polish Texts using Transformers

Jakub Pokrywka

TL;DR

A solution for Poleval 2022 Task 1: Punctuation Prediction for Polish Texts, which scores 71.44 Weighted F1, is described.

Abstract

Speech recognition systems typically output text lacking punctuation. However, punctuation is crucial for written text comprehension. To tackle this problem, Punctuation Prediction models are developed. This paper describes a solution for Poleval 2022 Task 1: Punctuation Prediction for Polish Texts, which scores 71.44 Weighted F1. The method utilizes a single HerBERT model finetuned to the competition data and an external dataset.

Punctuation Prediction for Polish Texts using Transformers

TL;DR

A solution for Poleval 2022 Task 1: Punctuation Prediction for Polish Texts, which scores 71.44 Weighted F1, is described.

Abstract

Paper Structure (15 sections, 4 tables)

This paper contains 15 sections, 4 tables.

Introduction
Related Work
Competition Description
Sample data
Utilized Data
Sample Poleval 2022 Task 1 test-B sentence
Sample Poleval 2022 Task 1 train sentence
Sample Poleval 2021 Task1 train sentence
Sample Poleval 2021 Task1 test sentence
Metric
Method
Results
Correct predictions
Incorrect predictions
Conclusions

Punctuation Prediction for Polish Texts using Transformers

TL;DR

Abstract

Punctuation Prediction for Polish Texts using Transformers

Authors

TL;DR

Abstract

Table of Contents