Information et communication > Accueil > Recherche d’information, document et web sémantique > Numéro

Vol 3 - Numéro 1

Recherche d’information, document et web sémantique

Liste des articles

Détection de signaux faibles dans des masses de données faiblement structurées

Julien Maitre, Michel Menard, Guillaume Chiron, Alain Bouju

L’étude présentée s’inscrit dans le cadre du développement d’une plateforme d’analyse automatique de documents associée à un service sécurisé lanceurs d’alerte, de type GlobalLeaks. Cet article se focalise principalement sur la recherche de signaux faibles présents dans les documents. Il s’agit d’une problématique investiguée dans un grand nombre de champs disciplinaires et de cadres applicatifs. Nous supposons que chaque document est un mélange d’un petit nombre de thèmes ou catégories, et que la création de chaque mot est attribuable en termes de probabilités à l’un des thèmes du document. Les catégories des documents transmis ne sont pas connues a priori. Les mots-clés présents dans les documents représentatifs de ces catégories sont également inconnus. L’analyse des documents reçus doit simultanément permettre de découvrir les thèmes, classer les documents relativement à ces thèmes, détecter les mots-clés pertinents relatifs aux thèmes et enfin découvrir les mots-clés relevant d’un thème “signal faible” éventuel. Pour atteindre cet objectif, nous proposons une définition du signal faible qui conditionne l’approche conjointe modèle thématique / plongement lexical, et contraint le choix des méthodes LDA et Word2Vec. Nous proposons d’évaluer les partitions obtenues grâce à un indice de cohérence sur la collection de mots représentative de chaque thème obtenu. Les clusters obtenus sont ainsi plus cohérents au sens contextuel. La détection du cluster associé au signal faible est alors plus aisée et plus pertinente.

DataNews : Contextualisation de valeurs chiffrées dans des dépêches

Chloé Monnin, Olivier Hamon, Victor Schmitt, Brice Terdjman

L’Open Data fournit de nombreuses données publiques avec une couverture très large, mais aucune base n’a jamais été structurée à partir d’informations issues de l’actualité. À travers DataNews, notre objectif est d’aller chercher automatiquement des données afin d’offrir un moyen de les réutiliser. Pour ce faire, nous avons tout d’abord défini une typologie d’événements dans le contexte spécifique des décès dans des dépêches AFP. Puis, en se limitant aux catastrophes naturelles, nous avons regroupé ces dépêches par événement afin de pouvoir les identifier. La dernière étape a pour objectif de construire des patrons d’extraction afin de collecter les valeurs correspondant au nombre de morts, de même que le contexte associé à ces valeurs. Les résultats de nos évaluations nous ont confirmé le fort potentiel de notre méthode qui pourrait amener à l’élaboration de plusieurs applications.

L’influence sur les réseaux, une proposition de modélisation

Damien Nouvel, Kévin Deturck, Frédérique Segond, Namrata Patel

Cet article porte sur les influenceurs, définis comme des individus qui parviennent à impacter la prise de décision d’autres individus en interagissant avec eux. Avec le succès des médias sociaux cette dernière décennie, la détection de tels profils engendre un intérêt croissant dans des domaines aussi variés que le marketing, la défense ou encore le journalisme. Nous présentons dans cet article une nouvelle approche à la détection des influenceurs par une modélisation empirique du processus d’influence. Nous définissons d’abord le cadre théorique dans lequel nous avons conçu notre modèle. Nous décrivons ensuite la méthode employée pour déterminer
les composantes générales de notre modèle et les caractériser par des traits linguistiques à partir des messages d’un média social. Nous abordons enfin l’objectif d’implémenter le modèle avec la création de données de référence.

Autres numéros :

2019

Volume 19- 3

Numéro 1

2018

Volume 18- 2

Numéro 1

2017

Volume 17- 1

Numéro 1