Information et communication > Accueil > Revue

Recherche d’information, document et web sémantique

Information Retrieval, Document and Semantic Web

RIDoWS - ISSN 2516-3280 - © ISTE Ltd

Objectifs de la revue

Aims and scope

La multiplicité des formes de documents (multimédia, multilingue, structuré ou non) et des usages favorise de plus en plus un brassage entre différentes communautés.

Recherche d’information, document et web sémantique est un point de rencontre pour ces communautés scientifiques ou industrielles qui s’intéressent à la recherche d’information, au web sémantique, à l’analyse de documents (textes, images, sons, vidéos...) ou à la collection de documents.

The diversity in forms of documents (multimedia, multilingual, with or without a structure) and in their uses encourages different communities to mingle more and more.

Information Retrieval, Document and Semantic Web is a meeting point for these scientific or industrial communities who are interested in information research, the semantic web, the analysis of documents (texts, images, sounds, videos, etc.) or in the collection of documents.

Numéros parus

2019

Volume 19- 3

Numéro 1

2018

Volume 18- 2

Numéro 1

2017

Volume 17- 1

Numéro 1

Derniers articles parus

Détection de signaux faibles dans des masses de données faiblement structurées

Julien Maitre, Michel Menard, Guillaume Chiron, Alain Bouju

L’étude présentée s’inscrit dans le cadre du développement d’une plateforme d’analyse automatique de documents associée à un service sécurisé lanceurs d’alerte, de type GlobalLeaks. Cet article se focalise principalement sur la recherche de signaux faibles présents dans les documents. Il s’agit d’une problématique investiguée dans un grand nombre de champs disciplinaires et de cadres applicatifs. Nous supposons que chaque document est un mélange d’un petit nombre de thèmes ou catégories, et que la création de chaque mot est attribuable en termes de probabilités à l’un des thèmes du document. Les catégories des documents transmis ne sont pas connues a priori. Les mots-clés présents dans les documents représentatifs de ces catégories sont également inconnus. L’analyse des documents reçus doit simultanément permettre de découvrir les thèmes, classer les documents relativement à ces thèmes, détecter les mots-clés pertinents relatifs aux thèmes et enfin découvrir les mots-clés relevant d’un thème “signal faible” éventuel. Pour atteindre cet objectif, nous proposons une définition du signal faible qui conditionne l’approche conjointe modèle thématique / plongement lexical, et contraint le choix des méthodes LDA et Word2Vec. Nous proposons d’évaluer les partitions obtenues grâce à un indice de cohérence sur la collection de mots représentative de chaque thème obtenu. Les clusters obtenus sont ainsi plus cohérents au sens contextuel. La détection du cluster associé au signal faible est alors plus aisée et plus pertinente.

DataNews : Contextualisation de valeurs chiffrées dans des dépêches

Chloé Monnin, Olivier Hamon, Victor Schmitt, Brice Terdjman

L’Open Data fournit de nombreuses données publiques avec une couverture très large, mais aucune base n’a jamais été structurée à partir d’informations issues de l’actualité. À travers DataNews, notre objectif est d’aller chercher automatiquement des données afin d’offrir un moyen de les réutiliser. Pour ce faire, nous avons tout d’abord défini une typologie d’événements dans le contexte spécifique des décès dans des dépêches AFP. Puis, en se limitant aux catastrophes naturelles, nous avons regroupé ces dépêches par événement afin de pouvoir les identifier. La dernière étape a pour objectif de construire des patrons d’extraction afin de collecter les valeurs correspondant au nombre de morts, de même que le contexte associé à ces valeurs. Les résultats de nos évaluations nous ont confirmé le fort potentiel de notre méthode qui pourrait amener à l’élaboration de plusieurs applications.

L’influence sur les réseaux, une proposition de modélisation

Damien Nouvel, Kévin Deturck, Frédérique Segond, Namrata Patel

Cet article porte sur les influenceurs, définis comme des individus qui parviennent à impacter la prise de décision d’autres individus en interagissant avec eux. Avec le succès des médias sociaux cette dernière décennie, la détection de tels profils engendre un intérêt croissant dans des domaines aussi variés que le marketing, la défense ou encore le journalisme. Nous présentons dans cet article une nouvelle approche à la détection des influenceurs par une modélisation empirique du processus d’influence. Nous définissons d’abord le cadre théorique dans lequel nous avons conçu notre modèle. Nous décrivons ensuite la méthode employée pour déterminer
les composantes générales de notre modèle et les caractériser par des traits linguistiques à partir des messages d’un média social. Nous abordons enfin l’objectif d’implémenter le modèle avec la création de données de référence.

Correction des données : retour d’expérience sur la plate-forme RECITAL de transcription participative

Pierre PÉTILLON, Hugo PIGEON, Guillaume RASCHIA, Benjamin HERVY

Les sciences participatives trouvent une place de choix dans les projets d’humanités numériques. En effet, le recours à la foule, notamment dans le cas de la transcription de documents anciens, permet de pallier en partie les contraintes des techniques de reconnaissance automatique d’écriture. Cette approche apporte également des outils complémentaires à la validation de l’expert
pour des tâches fastidieuses comme la classification ou l’extraction d’information à partir d’un texte. Cependant, ce type d’approche génère des problématiques inhérentes à la méthodologie employée et à la nature du corpus. Dans cet article, nous proposons des pistes d’évaluation et de résolution du problème de la qualité des données et de leur correction. Pour cela, nous nous appuyons sur le projet CIRESFI et la plateforme RECITAL de transcription des registres comptables de la Comédie Italienne.

Jeux de Données d’Observation de la Terre pour la Détection des Changements dans les Forêts

Julius Akinyemi, Josiane Mothe, Nathalie Neptune

La détection automatique des changements qui surviennent dans les forêts (déforestation, reforestation) s’appuie sur des jeux de données divers. Cet article présente une revue des données tant globales que locales qui peuvent servir pour évaluer les tâches de classification de couverture au sol, la détection de changement, la segmentation et l’annotation d’images pour l’analyse des
phénomènes de déforestation et de reforestation.

Construction(s) et contradictions des données de recherche en SHS

Marie-Laure Malingre, Morgane Mignon, Cécile Pierre, Alexandre Serres

La structuration et le partage des données s’imposent depuis cinq ans au monde de la recherche, à travers des injonctions politiques (de Horizon 2020 au Plan national pour la science ouverte). L’analyse de l’enquête menée en 2017 auprès des chercheurs de l’université Rennes 2 sur leurs pratiques, représentations et attentes en matière de données conduit à interroger le terme lui-même. Variable et complexe, contrairement à ce que suggère le mot « donnée », la notion ne va pas de soi. L’article s’efforcera de montrer qu’elle fait l’objet d’une triple construction, épistémologique, intellectuelle et politique, dans les discours des chercheurs et des acteurs institutionnels, en tension avec les pratiques constatées sur le terrain.

Analyse automatique de documents anciens : tirer parti d’un corpus incomplet, hétérogène et bruité

Karine Abiven, Gaël Lejeune

Cet article concerne un ensemble de textes anciens (datant du milieu du 17e siècle), que les spécialistes d’histoire et de littérature ont l’habitude de nommer "corpus des mazarinades". Ces quelque 5500 textes offrent une variété de problématiques qui s’inscrivent pleinement dans le domaine des humanités numériques. Nous montrons en premier lieu qu’il ne s’agit pas à proprement parler d’un corpus puisqu’on ne dispose pas, malgré un important travail bibliographique sur le sujet, d’une définition ni d’un recensement rigoureux de cet ensemble. Il s’agit ensuite de voir l’impact de cette définition instable sur le travail des chercheurs qui s’intéressent à ce "corpus", tout en proposant de corriger ces biais grâce à un outillage automatique. Nous montrons que, si le but est d’exploiter le matériau textuel et non de l’interpréter, il est intéressant de s’autoriser à traiter des données brutes (avec un minimum de traitements préparatoires). Enfin, nous exposons un premier cadre d’application sur la sous-partie de cet ensemble actuellement disponible sous forme numérique : la datation de documents. La méthode utilisée se fonde sur une analyse en chaînes de caractères qui permet à la fois de fonctionner sur un corpus partiellement bruité (états de langue divers, scories de l’océrisation. . .) et sur un corpus hétérogène, comprenant des documents de tailles et surtout de genres très variés. Nous montrons que, dans certains cas, le bruitage du corpus peut être un avantage pour certaines tâches de classification, notamment grâce à l’utilisation de méthodes exploitant des chaînes de caractères. Les approches en caractères permettent en effet de surmonter un certain nombre de difficultés liées à la variété des données disponibles. Aussi ce travail donne-t-il des outils pour extraire des sous-corpus cohérents, pour exploiter des jeux de données issus de la numérisation en économisant le post-traitement, et pour identifier des métadonnées manquantes : trois enjeux essentiels pour ce "corpus" qui reste encore pour une bonne part à divulguer à la communauté dans un format numérique raisonné.

Exploitation de l’hétérogénéité dans les données textuelles

Jacques Fize, Mathieu Roche, Maguelonne Teisseire

Depuis plusieurs décennies, on observe une utilisation croissante des systèmes d’information, ce qui provoque une augmentation exponentielle des données textuelles. Bien que l’aspect volumétrique de ces données textuelles soit résolu, sa dimension hétérogène reste un défi pour la communauté scientifique. La maitrise de ces données hétérogènes offre de nombreuses opportunités par un accès à une information plus riche. Dans nos travaux, nous concevons un processus de mise en correspondance de données textuelles hétérogènes, basé sur leur spatialité. Dans cet article, nous présentons les résultats retournés par ce processus sur des données produites à Madagascar dans le cadre du projet BVLAC, dirigé par le CIRAD. En se basant sur un ensemble de 4 critères de qualité, nous obtenons de bonnes correspondances spatiales entre ces documents.

Comité de rédaction

Rédacteur en chef

Vincent CLAVEAU
IRISA-CNRS, Rennes
vincent.claveau@irisa.fr

Membres du comité

Hervé BREDIN
CNRS-LIMSI
bredin@limsi.fr

Catherine FARON-ZUCKER
Laboratoire I3S
Université Nice Sophia Antipolis
aron@i3s.unice.fr

Karen PINEL-SAUVAGNAT
IRIT – Université Paul Sabatier
sauvagnat@irit.fr

Haïfa ZARGAYOUNA
LIPN – Université Paris 13
haifa.zargayouna@univ-paris13.fr

Proposer un article