exit

Information and Communication   > Home   > Information Retrieval, Document and Semantic Web   > Issue 1   > Article

Automatic indexing of scientific papers Presentation and results of DEFT 2016 text mining challenge

Indexation d’articles scientifiques Présentation et résultats du défi fouille de textes DEFT 2016


Béatrice Daille
LS2N - Université de Nantes

Sabine Barreaux
INIST–CNRS

Adrien Bougouin
LS2N - Université de Nantes

Florian Boudin
LS2N - Université de Nantes

Damien Cram
LS2N - Université de Nantes

Amir Hazem
LS2N - Université de Nantes



Published on 9 January 2018   DOI :

Abstract

Résumé

Keywords

Mots-clés

This paper presents the 2016 edition of the DEFT text mining challenge. This edition adresses the keyword-based indexing of scientific papers with the aim of simulating a professional indexer. The corpus is composed of French bibliographic records from four domains : linguistics, information science, archaeology and chemisty. The results have been evaluated in terms of precision, recall and f-measure computed on stemmed texts against a reference manual indexation.

Cet article décrit la campagne 2016 du défi fouille de textes (DEFT), qui pour sa douzième édition a proposé aux participants de simuler la tâche d’indexation de documents scientifiques réalisée par des documentalistes, experts dans des domaines de spécialité. L’indexation consiste à proposer un ensemble de mots-clés pour une notice bibliographique, en français, de quatre domaines de spécialité (linguistique, sciences de l’information, archéologie et chimie). Cette tâche d’indexation de document scientifique est difficile qu’elle soit réalisée manuellement ou automatiquement. Nous présentons la pratique de l’indexation manuelle et les méthodes état de l’art pour l’indexation automatique ainsi que leurs évaluations. Nous décrivons ensuite les données mises à disposition des participants, le déroulement de la campagne et les résultats obtenus évalués avec les mesures de précision, rappel, et f1-mesure, calculées avec une macro-moyenne.

document indexing keyphrase specialized domains scientific aricles French

indexation automatique mot-clé domaines de spécialité articles scientifiques français