Information and Communication > Home > Open Journal in Information Systems Engineering > Issue 1 > Article
Maxime Masson
Université de Pau et des Pays de l’Adour (UPPA)
Rodrigo Agerri
Université du Pays Basque EHU/UPV
Christian Sallaberry
Université de Pau et des Pays de l’Adour (UPPA)
Marie-Noelle Bessagnet
Université de Pau et des Pays de l’Adour (UPPA)
Philippe Roose
Université de Pau et des Pays de l’Adour (UPPA)
Annig Le Parc Lacayrelle
Université de Pau et des Pays de l’Adour (UPPA)
Published on 4 June 2025 DOI : 10.21494/ISTE.OP.2025.1303
The growing influence of social networks in the field of tourism highlights the need for effective automatic natural language processing (NLP) approaches to exploit this resource. However, transforming multilingual, informal and unstructured texts into structured knowledge remains a challenge, not least because of the need for annotated data for model training. This paper first examines different learning-based NLP techniques and models to optimise performance while reducing the need for manually annotated data. A new multilingual dataset (French, English, Spanish) specific to tourism has been created, focusing on the Basque Country region. This dataset includes tweets with manual annotations on spatial named entities, tourism thematic concepts and sentiments. A comparison of fine-tuning and few-shot learning methods with multilingual models indicates that few-shot techniques can produce good results with few annotated examples. Experiments conducted on this dataset suggest the possibility of applying learning-based NLP methods to various domains, while reducing the need for manual annotations and avoiding the complexities of rule-based methods. Secondly, we present TextBI, a generic multimodal dashboard designed to present multidimensional text annotation analysis on large volumes of multilingual social media data. The tool focuses on several dimensions: spatial, temporal, thematic and personal, and also supports additional enrichment data such as sentiment and engagement. Our approach, TextBI, represents a significant advance in the field of NLP annotation results visualisation by integrating and blending features from a variety of Business Intelligence, Geographic Information Systems and NLP tools.
L’influence grandissante des réseaux sociaux dans le domaine du tourisme souligne le besoin d’approches efficaces en traitement automatique du langage naturel (TALN) pour exploiter cette ressource. Toutefois, transformer des textes multilingues, informels et non structurés en connaissances structurées reste un défi, notamment à cause de la nécessité de données annotées pour l’entraînement des modèles. Cet article examine, dans un premier temps, différents techniques et modèles de TALN basés sur l’apprentissage pour optimiser les performances tout en réduisant le besoin de données annotées manuellement. Un nouveau jeu de données multilingues (français, anglais, espagnol) spécifique au tourisme a été créé, se concentrant sur la région du Pays Basque. Ce jeu de données inclut des tweets avec des annotations manuelles sur les entités nommées spatiales, les concepts thématiques touristiques et les sentiments. Une comparaison des méthodes de fine-tuning et d’apprentissage few-shot avec des modèles multilingues indique que les techniques few-shot peuvent produire de bons résultats avec peu d’exemples annotés. Les expérimentations menées sur ce jeu de données suggèrent la possibilité d’appliquer les méthodes de TALN à base d’apprentissage à divers domaines, tout en réduisant le besoin d’annotations manuelles et évitant les complexités des méthodes basées sur des règles. Dans un second temps, nous présentons TextBI, un tableau de bord générique multimodal conçu pour présenter des analyses d’annotations textuelles multidimensionnelles sur de grands volumes de données de médias sociaux multilingues. Cet outil se concentre sur plusieurs dimensions : spatiale, temporelle, thématique et personnelle, et prend également en charge des données d’enrichissement supplémentaires telles que le sentiment et l’engagement. Notre approche, TextBI, représente une avancée significative dans le domaine de la visualisation de résultats d’annotations TALN en intégrant et en mélangeant les caractéristiques d’une variété d’outils de Business Intelligence, de systèmes d’information géographique et de TALN.
Few-Shot Learning Masked Language Model (MLM) Multilingualism Social Science Computing Natural Language Processing Visualisation Multidimensional Tourism
Apprentissage Few-Shot Modèle de Langage Masqué (MLM) Multilinguisme Science Sociale Informatique Traitement Automatique du Langage Naturel Visualisation Multidimensionnel Tourisme