exit

Information et communication   > Accueil   > Analyses et méthodes formelles pour les humanités numériques   > Numéro 1   > Article

Constitution et annotation d’un corpus écrit de contes et récits en occitan

Construction and Annotation of an Occitan Written Narrative Stories Corpus


Marianne Vergez-Couret
Queen’s University Belfast



Publié le 12 octobre 2017   DOI :

Résumé

Abstract

Mots-clés

Keywords

Dans cet article, nous présentons les différentes étapes de la constitution d’un corpus de contes en occitan, de l’image numérisée au corpus annoté morphosyntaxiquement. Nous nous focalisons sur deux outils pour l’océrisation du corpus d’une part et pour l’analyse morphosyntaxique d’autre part en mettant en évidence les meilleurs aménagements possibles de ces outils pour la constitution d’un corpus en occitan.

In this article, we present the different steps to constitute an Occitan written narrative stories corpus, from digitized images to annotated corpus. We focus on two tools for optical character recognition on one hand and part-ofspeech tagging on the other hand, in identifying the best arrangement of those tools to constitute a corpus in Occitan.

Corpus TAL OCR Analyse morphosyntaxique Occitan Narration Contes

Corpus NLP OCR Part-Of-Speech Tagging Occitan Narrative Stories