exit

Information and Communication   > Home   > Open Journal in Information Systems Engineering   > Issue 1   > Article

Evolution and formalization of the Lambda Architecture for high performance analytics - Application to Twitter data

Évolution et formalisation de la Lambda Architecture pour des analyses à hautes performances - Application aux données de Twitter


Annabelle Gillet
Université de Bourgogne Franche-Comté

Éric Leclercq
Université de Bourgogne Franche-Comté

Nadine Cullot
Université de Bourgogne Franche-Comté



Published on 18 January 2021   DOI : 10.21494/ISTE.OP.2021.0606

Abstract

Résumé

Keywords

Mots-clés

Extracting value from social network data is a task whose complexity is driven by speed, volume and variability of data. Users develop multiple uses of these systems, that enhance the semantic variability. Analytics results must be produce as soon as possible (optimally in real-time) to be more relevant. Thus, business knowledge is essential and can usually be acquired by doing exploratory analysis. Accordingly, systems that harvest, store and analyze data from social networks have to support important streams of data, real-time analysis and exploratory analysis. Architecture styles and pattern allow to take these specificities into consideration, by proposing techniques to handle those data, and thus to facilitate their processing. These architectures have to be formalized, to study if essential properties are fulfilled, to know their behaviour, and to anticipate the effects that components can have on other components when they are gathered into a same architecture, and this even before developing and putting in production the architecture. In this article, we propose an architecture pattern, the Lambda+ Architecture, inspired from the Lambda Architecture and adapted to the processing of Big Data. We propose a formalization for architectures based on category theory, and an implementation of our pattern to analyze Twitter data.

Extraire de la valeur des données des réseaux sociaux est une tâche complexe induite par leur vélocité, volume et variabilité. Les utilisateurs s’approprient le dispositif et développent des usages multiples, ce qui renforce la variabilité sémantique. Les résultats des analyses doivent être produits au plus tôt (de manière optimale en temps réel) pour en renforcer la pertinence. Pour y parvenir, des connaissances métiers sont essentielles et elle sont généralement acquises lors d’analyses exploratoires. En conséquence, les plateformes de collecte, stockage et analyse des données des réseaux sociaux doivent supporter des flux de données importants, des analyses en temps réel et des analyses exploratoires. Des styles et des patrons d’architecture permettent de prendre en compte ces spécificités, afin de proposer des techniques de prise en charge de ces données, et ainsi de faciliter leur traitement. Ces architectures ont besoin d’être formalisées, pour étudier de quelle manière les propriétés essentielles sont respectées, connaître leur comportement, et anticiper les effets que peuvent avoir les composants lorsqu’ils sont regroupés au sein d’une même architecture, et ce avant même de les développer puis de les mettre en production. Dans cet article, nous proposons un patron d’architecture, la Lambda+ Architecture, inspiré de la Lambda Architecture et adapté au traitement des données massives. Nous proposons également un cadre formel pour la spécification d’architectures se basant sur la théorie des catégories, ainsi qu’une implémentation de notre patron pour analyser les données issues de Twitter.

Architecture pattern Category theory Lambda Architecture

Patron d’architecture Théorie des catégories Lambda Architecture