BLOGMODULE LOBSTERMODULE LOBSTERLOBSTER NOUVELLESLOBSTER_DATA

DATA FABRIC. L’INTÉGRATION DES DONNÉES COMME AVANTAGE CONCURRENCIEL.

BÂTIR UNE ARCHITECTURE IT DÉCENTRALISÉE. POUR PLUS DE DONNÉES. PLUS D’INFOS. PLUS DE VALEUR.

Les grandes et moyennes entreprises sont de plus en plus confrontées à une quantité et à une diversité énormes de données. Pour les stocker, on a recours à des possibilités très variées sur site, dans le cloud privé, le cloud public et le cloud hybride, ainsi que sur des appareils en périphérie de réseau (Edge Devices) ou IoT. De même, l’utilisation des données, elle aussi, se diversifie de plus en plus par exemple via des processus ETL, l’entreposage de données (Data Warehousing), le traitement de mégadonnées, l’IoT ou l’informatique décisionnelle (Business Intelligence, BI).

Pourtant, cette diversité est aussi synonyme d’hétérogénéité qui peut entraîner la formation de silos, compromettre la qualité des données, entraver leur migration, nécessiter l’utilisation simultanée de plusieurs outils d’intégration, limiter l’accès aux connaissances et augmenter le coût d’intégration des données. Mais la gestion classique des données se heurte aussi à l’évolution des exigences. En effet, les décisionnaires souhaitent que l’interrogation de ces grands volumes de données soit périodique ou orientée événements, se fasse en temps réel sur tous les sites de l’entreprise et permette des analyses métier. L’automatisation progressive de l’intégration ou de la gestion des données exerce une pression supplémentaire sur l’approche traditionnelle.

Qu’est-ce que la Data Fabric ?

C’est là qu’intervient l’idée de la Data Fabric. La Data Fabric est un concept d’architecture et de conception informatique qui remet en question la gestion verticale des données et prône à la place le déploiement d’une couche de données horizontale hautement intégrée reliant dans un même réseau tous les points terminaux d’entrée et de sortie des données (Data Endpoints). La Data Fabric n’est donc pas une application ou une solution logicielle mais une stratégie de stockage, de traitement et de contrôle décentralisés des données, de leur orchestration sur un environnement distribué qui recouvre l’ensemble de l’entreprise comme une toile ou un tissu – traduction directe de Fabric.

Grâce à des données structurées et intégrées de la sorte, il est par exemple possible de comparer les fournisseurs non seulement sur la base du prix, mais aussi sur la base du respect des délais de livraison et de la conformité ou bien de la qualité des produits livrés. Ces données de processus et de produits peuvent en outre être reliées aux données de la production, puis agrégées et enfin évaluées et réinjectées dans la production. Dans le contexte des denrées périssables, pour citer un exemple, une telle analyse peut dévoiler que le respect scrupuleux du délai de livraison a un impact sur la qualité du produit intermédiaire, sur la vitesse de sa transformation ultérieure et, au final, sur le prix réalisable du produit.

Données pour une utilisation collaborative dans un environnement distribué

Quiconque ne travaillant qu’avec une intégration de données classique ne transmet probablement pas les données des machines au service achats. Les données sont certes saisies mais ne sont disponibles qu’au sein d’un secteur de l’entreprise sans prévoir un accès généralisé à l’information. Dans la Data Fabric, en revanche, de telles données sont en permanence à disposition pour l’analyse, la production et, par exemple, l’achat, facilitant un processus d’optimisation axé sur les conditions réelles.

Car en effet, le but d’une Data Fabric est de fournir un accès optimal aux données, de permettre leur utilisation collaborative dans un environnement distribué, de minimiser les inefficiences, d’identifier les corrélations et de réduire les coûts grâce à l’informatique décisionnelle. La gestion des données devient plus simple et les jonctions entre les supports de stockage cloud et les supports de stockage locaux ne sont plus perçues comme des interruptions gênantes. En même temps, une Data Fabric offre l’immense avantage de pouvoir reprendre les services de données existants dans les structures futures au lieu de les remplacer à grands frais.

Qui plus est : la mise en œuvre d’une Data Fabric permet de créer un écosystème de gestion des données avec une qualité de données élevée, des services de données réutilisables, des données lisibles par les machines et des interfaces de programmation d’applications (API) qui garantissent l’intégration et l’orchestration des données au sein d’une entreprise même ainsi qu’avec ses partenaires externes. Les utilisateurs n’ont plus à se demander où trouver les données, comment y accéder et quelles sont les conséquences de leurs modifications pour les autres.

« To do list » pour la mise en place d’une Data Fabric

Si l’on considère la Data Fabric sous cet angle, l’approche pousse l’intégration intelligente des données encore plus loin et accélère la transformation numérique des entreprises. Pour mettre en place une architecture de Data Fabric, il convient de lancer les réflexions et processus suivants :

  • Formuler la question concrète à laquelle l’intégration des données doit répondre.
  • Collecter et analyser les données pertinentes en fonction des ensembles de données, des taxonomies et de toute autre information les mieux à même de résoudre la question.
  • Nettoyer les données collectées, par exemple en supprimant les entrées non valables ou obsolètes, en éliminant les données non structurées ou contradictoires, en adaptant les champs de données, etc.
  • Créer un modèle de données pertinent à la fois pour les personnes et les machines : analyser les différents schémas de données, réutiliser ou créer des ontologies, des profils d’application, etc.
  • Intégrer les données à l’aide de processus ETL/ELT permettant de charger de manière accélérée tant les données structurées que non structurées.
  • Harmoniser les données en comparant les descriptions d’une même entité pour les ensembles de données dont le champ d’application se chevauche, en traitant leurs attributs et en fusionnant les informations, le cas échéant.
  • Enrichir les données par le biais du raisonnement (Reasoning) et de l’analyse métier en extrayant de nouvelles entités et relations, générant ainsi des informations inconnues jusqu’alors.
  • Maximiser l’utilisabilité des données grâce à des outils de découverte des connaissances (Knowledge Discovery Tools) tels que les requêtes SPARQL, les interfaces GraphQL, la visualisation des données, etc.
  • En continu : actualiser les informations et développer la structure des données.

MQTT comme point de départ pour un processus de Data Fabric évolutif

Pour conclure sur un exemple très concret, la mise en œuvre d’une Data Fabric peut se faire à partir du protocole MQTT (Message Queuing Telemetry Transport). MQTT désigne un protocole de messagerie ouvert, standardisé et peu gourmand en ressources. Il fonctionne sur le cloud et est surtout adapté à la communication entre des systèmes informatiques qui ne sont pas directement reliés entre eux. Pour ce faire, MQTT utilise le principe dit du publisher-subscriber, donc de l’éditeur-abonné : une source de données (par ex. un capteur de température) envoie des informations au broker MQTT intermédiaire via une publication. Le broker classe les données entrantes en fonction de leur thème (Topics) et les transmet à tous les clients destinataires y abonnés (par ex. ordinateurs portables ou appareils mobiles). Le MQTT est hautement évolutif et apte à relier des millions de points terminaux (DEP) tout en fournissant des données fiables et de haute qualité. Un broker MQTT peut ainsi mettre à disposition des systèmes informatiques connectés des données très diverses telles que des textes, des images et également des fichiers binaires, comme des vidéos, en vue de leur analyse ultérieure. Dans ce contexte de mise en œuvre rapide de la Data Fabric, citons aussi les connecteurs préfabriqués, donc sans programmation, utilisables pour presque toutes les sources de données.

Il n’existe toutefois pas d’approche universelle pour améliorer la gestion des connaissances à l’ère du Big Data. Lors de la réalisation d’une Data Fabric et donc d’une consommation de données en libre-service, chaque entreprise a ses propres exigences et objectifs, nécessitant souvent une stratégie individualisée. Un principe s’applique toutefois à toutes les structures de Data Fabric : les données devraient être FAIR (findable – accessible – interoperable – reusable), c’est-à-dire trouvables, accessibles, interopérables et réutilisables.

Bouton retour en haut de la page