exit

Information and Communication   > Home   > Information Retrieval, Document and Semantic Web   > Issue 1   > Article

Keyword Representations in Semantic Vector Space: a Keyword Assignment Method for Automatic Document Indexing

Les espaces sémantiques de mots-clés : une méthode d’indexation automatique de documents par assignation de mots-clés


Jean-François Chartier
Université de Montréal
Canada

Dominic Forest
Université de Montréal
Canada



Published on 26 January 2018   DOI : 10.21494/ISTE.OP.2018.0206

Abstract

Résumé

Keywords

Mots-clés

With the extremely rapid growth of the amount of digital documents in our societies, automatic keyword indexing has become a central research issue in information retrieval and document management. Several scientific competitions dealing with automatic indexing tasks have emerged in recent years. This article reports our participation in one of them, the 2016 edition of Défi Fouille de Texte (DEFT-2016). First, we present a state of the art regarding the importance, the issues and the challenges of automatic keyword indexing. After presenting the context and the task of the DEFT-2016, we introduce the method we have developed. This method is based on the construction of a keyword semantic vector space. The evaluation of our method and the analysis of the results suggest that our approach is particularly adapted to automatic keyword indexing tasks which require a large proportion of controlled keyword assignment that are absent from the text content of the documents.

Avec la croissance extrêmement rapide de la quantité de documents numériques dans nos sociétés, l’automatisation de l’indexation est devenue un enjeu de recherche central pour la gestion documentaire. Plusieurs compétitions scientifiques portant sur des tâches d’indexation automatique ont vu le jour ces dernières années. Cet article rend compte de notre participation à l’une d’entre elles, soit l’édition 2016 du Défi fouille de textes (DEFT-2016). Dans un premier temps, nous présentons un état de la situation concernant l’importance, mais aussi les enjeux et les défis de l’indexation automatique. Après avoir présenté les grandes lignes de la campagne d’évaluation DEFT-2016, nous introduisons l’approche que nous avons développée. Celle-ci repose sur la construction d’un espace sémantique de mots-clés. L’évaluation des performances de notre approche et l’analyse des résultats suggèrent que notre méthode est particulièrement adaptée à des tâches d’indexation automatique qui nécessitent une part importante d’assignation de mots-clés contrôlés qui sont absents du contenu textuel des documents.

Automatic Keyword Indexing Keyword Assignment Keyword Extraction Supervised Machine Learning Unsupervised Machine Learning Semantic Vector Space Défi Fouille de Textes DEFT

indexation automatique assignation de mots-clés extraction de mots-clés Algorithme non-supervisé Algorithme supervisé Espace sémantique Défi fouille de textes DEFT