exit

Information and Communication   > Home   > Analyses and Formal Methods for Digital Humanities   > Issue 1   > Article

Construction and Annotation of an Occitan Written Narrative Stories Corpus

Constitution et annotation d’un corpus écrit de contes et récits en occitan


Marianne Vergez-Couret
Queen’s University Belfast



Published on 12 October 2017   DOI :

Abstract

Résumé

Keywords

Mots-clés

In this article, we present the different steps to constitute an Occitan written narrative stories corpus, from digitized images to annotated corpus. We focus on two tools for optical character recognition on one hand and part-ofspeech tagging on the other hand, in identifying the best arrangement of those tools to constitute a corpus in Occitan.

Dans cet article, nous présentons les différentes étapes de la constitution d’un corpus de contes en occitan, de l’image numérisée au corpus annoté morphosyntaxiquement. Nous nous focalisons sur deux outils pour l’océrisation du corpus d’une part et pour l’analyse morphosyntaxique d’autre part en mettant en évidence les meilleurs aménagements possibles de ces outils pour la constitution d’un corpus en occitan.

Corpus NLP OCR Part-Of-Speech Tagging Occitan Narrative Stories

Corpus TAL OCR Analyse morphosyntaxique Occitan Narration Contes