TY - Type of reference TI - Haruspex, Outil de Gestion de Connaissances non Structurées AU - Matthieu Quantin AU - Benjamin HERVY AU - Florent Laroche AU - Jean-Louis Kerouanton AB - L’objet de cette communication est de proposer une méthode pour l’analyse et l’exploitation de corpus de documents non-structurés ou faiblement structurés. Le terme non-structuré se réfère au concept informatique de données non-décrites, non-marquées explicitement. Aujourd’hui la création de corpus de données numériques (ouverts ou privés) est un phénomène massif. Toujours plus de données sont scannées, photographiées, retranscrites, etc pour être analysées. Les jeux de données (numériques) constituent la matière exclusive, quotidienne du chercheur. Ces jeux de données sont souvent construits spécialement pour les besoins du projet voire collectés par le chercheur lui-même. Ce phénomène demande à être accompagné par une évolution des outils d’analyse : données physiques et données numériques ont des potentiels d’analyse différents. Or le chercheur en SHS est souvent démuni face aux sources non structurées qu’il collecte : articles, scan d’archives, documents OCR, images et métadonnées. La mise en place d’une base de données se résume souvent (au mieux) à un « tableau excel ». Les domaines du bigdata et du data-mining sont cantonnés à des projets de très grande envergure, pour des données déjà structurées, avec une équipe de soutien logistique conséquente. Un fossé se creuse entre le chercheur en histoire, en archéologie, en sociologie et les « humanités numériques ». L’outil proposé, intitulé Haruspex, vise à réduire ce gap. Il traite des données texte (et images éventuellement) en français ou en anglais, pour produire une base de données orientée graphe, requêtable, contenant les documents liés entre-eux (proximité sémantique). En entrée, divers formats (pdf, txt, odt, latex…) sont pris en charge, le processus se déroule ensuite en 4 étapes : 1. Gestion de corpus : création ou récupération d’éventuelles métadonnées (dates, lieux, étiquetage) pour les documents ; concaténation, découpage, regroupements, exclusion, … 2. Indexation sémantique de ce corpus : extraction de mots clés (génériques mais aussi très spécifiques), puis classification de ces mot-clés en catégories (si possible). 3. Modération des résultats précédents par l’utilisateur. 4. Calcul de la « distance sémantique » entre documents à partir de l’indexation modérée. Les premiers essais dans divers domaines – patrimoine industriel, histoire de la chimie au XXe siècle, histoire du travail dans les colonies et analyse des publication scientifiques – sont concluants aux yeux des chercheurs du domaine concerné. DO - 10.21494/ISTE.OP.2017.0172 JF - Archéologies numériques KW - graphe, indexation, proximité sémantique, corpus, texte non-structuré, graph, index, semantic closeness, corpus, unstructured text, L1 - https://www.openscience.fr/IMG/pdf/iste_numearv1n1_11.pdf LA - fr PB - ISTE OpenScience DA - 2017/10/13 SN - 2515-7574 TT - Haruspex, Knowledge Management Tool for Unstructured Data UR - https://www.openscience.fr/Haruspex-Outil-de-Gestion-de-Connaissances-non-Structurees IS - Numéro 1 VL - 1 ER -