Titre : Analyse automatique de documents anciens : tirer parti d’un corpus incomplet, hétérogène et bruité Auteurs : Karine Abiven, Gaël Lejeune, Revue : Recherche d’information, document et web sémantique Numéro : Numéro 1 Volume : 2 Date : 2019/02/19 DOI : 10.21494/ISTE.OP.2019.0335 ISSN : 2516-3280 Résumé : Cet article concerne un ensemble de textes anciens (datant du milieu du 17e siècle), que les spécialistes d’histoire et de littérature ont l’habitude de nommer "corpus des mazarinades". Ces quelque 5500 textes offrent une variété de problématiques qui s’inscrivent pleinement dans le domaine des humanités numériques. Nous montrons en premier lieu qu’il ne s’agit pas à proprement parler d’un corpus puisqu’on ne dispose pas, malgré un important travail bibliographique sur le sujet, d’une définition ni d’un recensement rigoureux de cet ensemble. Il s’agit ensuite de voir l’impact de cette définition instable sur le travail des chercheurs qui s’intéressent à ce "corpus", tout en proposant de corriger ces biais grâce à un outillage automatique. Nous montrons que, si le but est d’exploiter le matériau textuel et non de l’interpréter, il est intéressant de s’autoriser à traiter des données brutes (avec un minimum de traitements préparatoires). Enfin, nous exposons un premier cadre d’application sur la sous-partie de cet ensemble actuellement disponible sous forme numérique : la datation de documents. La méthode utilisée se fonde sur une analyse en chaînes de caractères qui permet à la fois de fonctionner sur un corpus partiellement bruité (états de langue divers, scories de l’océrisation. . .) et sur un corpus hétérogène, comprenant des documents de tailles et surtout de genres très variés. Nous montrons que, dans certains cas, le bruitage du corpus peut être un avantage pour certaines tâches de classification, notamment grâce à l’utilisation de méthodes exploitant des chaînes de caractères. Les approches en caractères permettent en effet de surmonter un certain nombre de difficultés liées à la variété des données disponibles. Aussi ce travail donne-t-il des outils pour extraire des sous-corpus cohérents, pour exploiter des jeux de données issus de la numérisation en économisant le post-traitement, et pour identifier des métadonnées manquantes : trois enjeux essentiels pour ce "corpus" qui reste encore pour une bonne part à divulguer à la communauté dans un format numérique raisonné. Éditeur : ISTE OpenScience