Thématiques
Le traitement des données se compose généralement des étapes suivantes:
- Préparation des données: extraction, transformation, intégration et chargement des sources de données
- Stockage des données: les données sont stockées dans un support ad-hoc (relationnel, base de données NoSQL)
- Exploration des données: les données sont stockées dans un entrepôt de données ou dans Data Lakes, puis explorées visuellement à l'aide d'OLAP ou d'outils de création de rapports visuels
- Analyse avancée des données: un sous-ensemble extrait des données stockées est ensuite analysé à l'aide de méthodes d'analyse avancées telles que l'exploration de données, les statistiques, etc.
La préparation des données concerne l'intégration de différentes sources de données. Habituellement, des outils d'extraction-transformation-chargement, tels que Talend, sont utilisés pour transformer ces données et les intégrer dans un référentiel final. Des méthodologies avancées ont été proposées dans la littérature pour parvenir à un cadre de référence commun pour les sources de données, basé sur des dictionnaires de données, des ontologies, etc.
Une fois les données préparées, elles sont stockées dans des supports de stockage ad-hoc tels que des bases de données relationnelles et / ou NoSQL. La conception (conceptuelle, logique et physique) repose sur des questions ouvertes importantes d'un point de vue technologique et de recherche. Deux approches peuvent être utilisées pour organiser les données: Data Warehouse et Data Lake.
- Data Warehouse (DW) centralise les données dans un référentiel unique modélisé selon le modèle multidimensionnel qui permet une exploration et une visualisation faciles et hautes performances. Dans un DW, les données sont organisées en dimensions et en faits. Les dimensions sont représentées par les axes d'analyse et sont organisées en hiérarchies (par exemple, villes, départements et régions). Les faits sont représentés par les sujets d'analyse et sont décrits par des attributs numériques appelés mesures (par exemple, la quantité de produits vendus). Les mesures sont explorées avec les opérateurs OLAP, qui permettent de naviguer dans le DW. La conception de bases de données DW sur NoSQL et pour des applications complexes représente des problèmes technologiques et de recherche.
- Data Lakes fournit une autre approche, où les données ne sont pas intégrées dans une seule source, mais elles sont directement analysées sur des bases de données distribuées. Cette représentation lâche des données ouvre de nouveaux problèmes liés à la description des données, à l'interrogation des données et aux performances des données.
Dans ce contexte, les chercheurs et les citoyens non informaticiens reçoivent différents ensembles de données et les analysent généralement sans tirer parti de la chaîne de valeur BI. En d'autres termes, ils appliquent leurs propres méthodes manuelles de nettoyage des données et les explorent. Habituellement, les chercheurs doivent fortement interagir avec des experts en informatique pour réaliser ces étapes, ce qui implique des malentendus, des pertes de temps et d'argent. Mais dans les prochaines années, cette approche «manuelle» sera de plus en plus difficile lorsque les sources de données disponibles pour l'analyse seront de plus en plus différentes, nombreuses et à haute fréquence (par exemple, les données collectées sur la biodiversité ont augmenté de 18% en 2018). Par conséquent, l'exploration des données à l'aide des approches OLAP / reporting apparaît comme une grande opportunité, car elles permettent une exploration et une analyse simples et efficaces des données à l'aide d'interfaces utilisateur interactives et conviviales telles que des tableaux croisés dynamiques, des affichages graphiques et cartographiques.
|