Information and Communication > Home > Information Retrieval, Document and Semantic Web > Issue 1 > Article

Automatic analysis of old documents: taking advantage of an incomplete, heterogeneous and noisy corpus

Analyse automatique de documents anciens : tirer parti d’un corpus incomplet, hétérogène et bruité

Previous article
Next article

PDF Citation

Karine Abiven
Sorbonne Université - STIH

Gaël Lejeune
Sorbonne Université - STIH

Published on 19 February 2019 DOI : 10.21494/ISTE.OP.2019.0335

Abstract

Résumé

Keywords

Mots-clés

In this article we try to tackle some problems arising with noisy and heterogeneous data in the domain of digital humanities. We investigate a corpus known as the mazarinades corpus which gathers around 5,500 documents in French from the 17th century. First of all, we show that this set of documents is not strictly speaking a corpus since its coverage has not been thoroughly
defined. Then, we advocate that it is possible to get interesting results even in the case of such an incomplete, heterogeneous and noisy dataset by strictly limiting the amount of pre-treatments necessary fro processing texts. Finally, we present some results on a case study on document dating where we aim to complete missing metadata in the mazarinades corpus. We exploit a method based on character strings analysis which is robust to noisy data and can even take advantage of this noise for improving the quality of the results.

Cet article concerne un ensemble de textes anciens (datant du milieu du 17e siècle), que les spécialistes d’histoire et de littérature ont l’habitude de nommer "corpus des mazarinades". Ces quelque 5500 textes offrent une variété de problématiques qui s’inscrivent pleinement dans le domaine des humanités numériques. Nous montrons en premier lieu qu’il ne s’agit pas à proprement parler d’un corpus puisqu’on ne dispose pas, malgré un important travail bibliographique sur le sujet, d’une définition ni d’un recensement rigoureux de cet ensemble. Il s’agit ensuite de voir l’impact de cette définition instable sur le travail des chercheurs qui s’intéressent à ce "corpus", tout en proposant de corriger ces biais grâce à un outillage automatique. Nous montrons que, si le but est d’exploiter le matériau textuel et non de l’interpréter, il est intéressant de s’autoriser à traiter des données brutes (avec un minimum de traitements préparatoires). Enfin, nous exposons un premier cadre d’application sur la sous-partie de cet ensemble actuellement disponible sous forme numérique : la datation de documents. La méthode utilisée se fonde sur une analyse en chaînes de caractères qui permet à la fois de fonctionner sur un corpus partiellement bruité (états de langue divers, scories de l’océrisation. . .) et sur un corpus hétérogène, comprenant des documents de tailles et surtout de genres très variés. Nous montrons que, dans certains cas, le bruitage du corpus peut être un avantage pour certaines tâches de classification, notamment grâce à l’utilisation de méthodes exploitant des chaînes de caractères. Les approches en caractères permettent en effet de surmonter un certain nombre de difficultés liées à la variété des données disponibles. Aussi ce travail donne-t-il des outils pour extraire des sous-corpus cohérents, pour exploiter des jeux de données issus de la numérisation en économisant le post-traitement, et pour identifier des métadonnées manquantes : trois enjeux essentiels pour ce "corpus" qui reste encore pour une bonne part à divulguer à la communauté dans un format numérique raisonné.

Old documents Mazarinades Text Mining Document Dating corpus

Documents anciens Mazarinades Fouille de Textes datation corpus numérisation

Previous article Next article

Information and Communication > Home > Information Retrieval, Document and Semantic Web > Issue 1 > Article