exit

Information and Communication   > Home   > Information Retrieval, Document and Semantic Web   > Issue 1   > Article

Data correction for transcription in crowdsourcing. A feedback from RECITAL platform.

Correction des données : retour d’expérience sur la plate-forme RECITAL de transcription participative


Benjamin HERVY
LS2N - Polytech Nantes

Pierre PÉTILLON
Polytech Nantes School of Engineering

Hugo PIGEON
Polytech Nantes School of Engineering

Guillaume RASCHIA
LS2N - Polytech Nantes



Published on 18 March 2019   DOI : 10.21494/ISTE.OP.2019.0348

Abstract

Résumé

Keywords

Mots-clés

Crowdsourcing have been widely deployed to cover some challenges in digital humanities, like in the transcription of old handwritten documents. Such approach is especially useful to tackle existing limits in automatic handwriting recognition techniques. Crowdsourcing allows workers to help experts in extraction and classification of information, when the workload is daunting. Yet, it yields
some specific challenges related to the quality of produced data. In this paper, we discuss data quality in a research project called CIRESFI which aims at transcribing Italian Comedy financial archives through the RECITAL web platform.We finally propose some leads to tackle these issues.

Les sciences participatives trouvent une place de choix dans les projets d’humanités numériques. En effet, le recours à la foule, notamment dans le cas de la transcription de documents anciens, permet de pallier en partie les contraintes des techniques de reconnaissance automatique d’écriture. Cette approche apporte également des outils complémentaires à la validation de l’expert
pour des tâches fastidieuses comme la classification ou l’extraction d’information à partir d’un texte. Cependant, ce type d’approche génère des problématiques inhérentes à la méthodologie employée et à la nature du corpus. Dans cet article, nous proposons des pistes d’évaluation et de résolution du problème de la qualité des données et de leur correction. Pour cela, nous nous appuyons sur le projet CIRESFI et la plateforme RECITAL de transcription des registres comptables de la Comédie Italienne.

Citizen sciences Digital Humanities Old handwritten documents Transcription Data quality Italian Comedy

Sciences participatives Humanités numériques Manuscrits anciens Transcription Qualité des données Comédie Italienne