Information et communication > Accueil > Recherche d’information, document et web sémantique > Numéro

Vol 2 - Numéro 1

Recherche d’information, document et web sémantique

Liste des articles

Correction des données : retour d’expérience sur la plate-forme RECITAL de transcription participative

Benjamin HERVY, Pierre PÉTILLON, Hugo PIGEON, Guillaume RASCHIA

Les sciences participatives trouvent une place de choix dans les projets d’humanités numériques. En effet, le recours à la foule, notamment dans le cas de la transcription de documents anciens, permet de pallier en partie les contraintes des techniques de reconnaissance automatique d’écriture. Cette approche apporte également des outils complémentaires à la validation de l’expert
pour des tâches fastidieuses comme la classification ou l’extraction d’information à partir d’un texte. Cependant, ce type d’approche génère des problématiques inhérentes à la méthodologie employée et à la nature du corpus. Dans cet article, nous proposons des pistes d’évaluation et de résolution du problème de la qualité des données et de leur correction. Pour cela, nous nous appuyons sur le projet CIRESFI et la plateforme RECITAL de transcription des registres comptables de la Comédie Italienne.

Jeux de Données d’Observation de la Terre pour la Détection des Changements dans les Forêts

Julius Akinyemi, Josiane Mothe, Nathalie Neptune

La détection automatique des changements qui surviennent dans les forêts (déforestation, reforestation) s’appuie sur des jeux de données divers. Cet article présente une revue des données tant globales que locales qui peuvent servir pour évaluer les tâches de classification de couverture au sol, la détection de changement, la segmentation et l’annotation d’images pour l’analyse des
phénomènes de déforestation et de reforestation.

Construction(s) et contradictions des données de recherche en SHS

Marie-Laure Malingre, Morgane Mignon, Cécile Pierre, Alexandre Serres

La structuration et le partage des données s’imposent depuis cinq ans au monde de la recherche, à travers des injonctions politiques (de Horizon 2020 au Plan national pour la science ouverte). L’analyse de l’enquête menée en 2017 auprès des chercheurs de l’université Rennes 2 sur leurs pratiques, représentations et attentes en matière de données conduit à interroger le terme lui-même. Variable et complexe, contrairement à ce que suggère le mot « donnée », la notion ne va pas de soi. L’article s’efforcera de montrer qu’elle fait l’objet d’une triple construction, épistémologique, intellectuelle et politique, dans les discours des chercheurs et des acteurs institutionnels, en tension avec les pratiques constatées sur le terrain.

Analyse automatique de documents anciens : tirer parti d’un corpus incomplet, hétérogène et bruité

Karine Abiven, Gaël Lejeune

Cet article concerne un ensemble de textes anciens (datant du milieu du 17e siècle), que les spécialistes d’histoire et de littérature ont l’habitude de nommer "corpus des mazarinades". Ces quelque 5500 textes offrent une variété de problématiques qui s’inscrivent pleinement dans le domaine des humanités numériques. Nous montrons en premier lieu qu’il ne s’agit pas à proprement parler d’un corpus puisqu’on ne dispose pas, malgré un important travail bibliographique sur le sujet, d’une définition ni d’un recensement rigoureux de cet ensemble. Il s’agit ensuite de voir l’impact de cette définition instable sur le travail des chercheurs qui s’intéressent à ce "corpus", tout en proposant de corriger ces biais grâce à un outillage automatique. Nous montrons que, si le but est d’exploiter le matériau textuel et non de l’interpréter, il est intéressant de s’autoriser à traiter des données brutes (avec un minimum de traitements préparatoires). Enfin, nous exposons un premier cadre d’application sur la sous-partie de cet ensemble actuellement disponible sous forme numérique : la datation de documents. La méthode utilisée se fonde sur une analyse en chaînes de caractères qui permet à la fois de fonctionner sur un corpus partiellement bruité (états de langue divers, scories de l’océrisation. . .) et sur un corpus hétérogène, comprenant des documents de tailles et surtout de genres très variés. Nous montrons que, dans certains cas, le bruitage du corpus peut être un avantage pour certaines tâches de classification, notamment grâce à l’utilisation de méthodes exploitant des chaînes de caractères. Les approches en caractères permettent en effet de surmonter un certain nombre de difficultés liées à la variété des données disponibles. Aussi ce travail donne-t-il des outils pour extraire des sous-corpus cohérents, pour exploiter des jeux de données issus de la numérisation en économisant le post-traitement, et pour identifier des métadonnées manquantes : trois enjeux essentiels pour ce "corpus" qui reste encore pour une bonne part à divulguer à la communauté dans un format numérique raisonné.

Exploitation de l’hétérogénéité dans les données textuelles

Jacques Fize, Mathieu Roche, Maguelonne Teisseire

Depuis plusieurs décennies, on observe une utilisation croissante des systèmes d’information, ce qui provoque une augmentation exponentielle des données textuelles. Bien que l’aspect volumétrique de ces données textuelles soit résolu, sa dimension hétérogène reste un défi pour la communauté scientifique. La maitrise de ces données hétérogènes offre de nombreuses opportunités par un accès à une information plus riche. Dans nos travaux, nous concevons un processus de mise en correspondance de données textuelles hétérogènes, basé sur leur spatialité. Dans cet article, nous présentons les résultats retournés par ce processus sur des données produites à Madagascar dans le cadre du projet BVLAC, dirigé par le CIRAD. En se basant sur un ensemble de 4 critères de qualité, nous obtenons de bonnes correspondances spatiales entre ces documents.

Approche Guidée par la Valeur et la Variété pour Concevoir des Entrepôts de Données Etendus

Nabila Berkani, Selma Khouri, Ladjel Bellatreche

En un laps de temps assez court (1990 à nos jours), la technologie des entrepôts de données est passée par toutes les phases de la vie d’un produit technologique : une introduction sur le marché, une croissance, une maturité et une baisse de régime sentie avec l’apparition des données massives (Big Data). Dans le paysage des Big Data, l’arrivée des Linked Open Data (LOD) transforme la menace Big Data en une opportunité pour les ED, car elles sont porteuses de valeurs ajoutées et de connaissances que nous ne trouvons pas dans les sources internes alimentant un ED. Cependant, l’introduction des LOD augmente la variété des sources, qui doit être gérée efficacement. Dans cet article, nous présentons une nouvelle approche de conception d’ED guidée par la valeur et la variété que nous appliquons à une étude de cas du domaine des SHS.

Autres numéros :

2019

Volume 19- 3

Numéro 1

2018

Volume 18- 2

Numéro 1

2017

Volume 17- 1

Numéro 1