BLOGLOBSTER MODULELOBSTER NEWSLOBSTER_DATA

DATA FABRIC. DATENINTEGRATION ALS WETTBEWERBSVORTEIL.

AUFBAU EINER DEZENTRALEN IT-ARCHITEKTUR. FÜR MEHR DATEN. MEHR INSIGHTS. MEHR WERT.

AUFBAU EINER DEZENTRALEN IT-ARCHITEKTUR. FÜR MEHR DATEN. MEHR INSIGHTS. MEHR WERT

In immer stärkerem Maße sehen sich Konzerne und mittelständische Unternehmen einer ungeheuren Menge und Vielfalt an Daten gegenüber. Für deren Speicherung stehen unterschiedlichste Möglichkeiten zur Verfügung wie on-premise, Private Cloud, Public Cloud und Hybride Cloud sowie Edge- oder IoT-Geräte. Auch die Datennutzung diversifiziert sich immer stärker beispielsweise durch ETL-Prozesse, Data Warehousing und Massendatenverarbeitung sowie im Rahmen von IIoT oder Business Intelligence.

Diese Vielfalt hat nicht nur Vorteile, sondern kann in IT-Systemen zu Daten-Silos führen, die Datenqualität und Datenmigration beeinträchtigen, den Einsatz mehrerer Integrationstools erfordern, den Zugang zu Wissen erschweren und die Kosten für Datenintegration in die Höhe treiben. Das klassische Datenmanagement stößt aber auch aufgrund veränderter Anforderungen an seine Grenzen, denn große Datenmengen sollen periodisch oder ereignisgesteuert abgefragt werden können, in Echtzeit und standortunabhängig zur Verfügung stehen sowie Business Analysen ermöglichen. Zudem setzt die fortschreitende Automatisierung von Datenintegration oder Datenmanagement den traditionellen Ansatz weiter unter Druck.

Was genau ist eine Data Fabric?

Hier knüpft der Data-Fabric-Gedanke an. Data Fabric ist ein IT-Architektur- und Design-Konzept, das das vertikale Datenmanagement hinterfragt und stattdessen den Aufbau einer eng verknüpften, horizontalen Datenschicht zwischen Datenendpunkten propagiert. Data Fabric ist also keine Anwendung oder Software-Lösung, sondern eine Strategie zur dezentralen Datenspeicherung, -verarbeitung und -kontrolle, zur Datenorchestrierung über eine verteilte Umgebung hinweg, die das gesamte Unternehmen wie ein Tuch oder ein Gewebe – so die direkte Übersetzung von Fabric – überspannt.

Mit derart verknüpften, strukturierten Daten ist beispielsweise ein Vergleich von Lieferanten nicht mehr nur über den Preis, sondern auch auf der Basis von Liefertreue, Produktqualität und Compliance möglich. Diese Process und Product Data können zusätzlich mit Daten aus der Fertigung gesichtet und verknüpft, danach aggregiert, und anschließend ausgewertet und in die Produktion zurückgespielt werden. So mag die Analyse im Kontext verderblicher Ware ergeben, dass die genaue Einhaltung der Lieferfrist Auswirkungen auf die Qualität des Zwischenprodukts, auf die Fertigungsgeschwindigkeit und letztendlich auf den erzielbaren Produktpreis hat.

Daten zur kollaborativen Nutzung in verteilter Umgebung

Wer hier nur mit einer klassischen Datenintegration arbeitet, überträgt beispielsweise Maschinendaten nicht an den Einkauf. Daten werden zwar erfasst, sind aber nur innerhalb eines Bereichs im Unternehmen zugänglich. Eine einheitliche Sicht auf die Informationen besteht nicht. In der Data Fabric stehen solche Daten für Analyse, Produktion und beispielsweise Einkauf permanent zur Verfügung und ermöglichen einen an den realen Gegebenheiten ausgerichteten Optimierungsprozess.

Denn Sinn und Zweck einer Data Fabric ist, den optimalen Zugriff auf Daten und deren kollaborative Nutzung in einer verteilten Umgebung zu erlauben, Reibungsverluste zu minimieren, Korrelationen zu erkennen und durch datenbasierte Erkenntnisse Kosten zu senken. Datenmanagement wird einfacher und Nahtstellen zwischen cloudbasierten und lokalen Storage-Medien sind nicht länger als störender Schnitt wahrnehmbar. Gleichzeitig bietet eine Data Fabric den großen Vorteil, bestehende Datendienste in zukünftige Strukturen zu übernehmen, anstatt sie aufwändig zu ersetzen.

Über die Implementierung einer Data Fabric entsteht ein Datenmanagement-Ökosystem mit hoher Datenqualität, wiederverwendbaren Datendiensten, maschinenlesbaren Daten und APIs, die die Datenintegration und -orchestrierung innerhalb eines Unternehmens und zu dessen externen Partnern gewährleistet. Nutzer müssen sich nicht mehr fragen, wo sich die Daten befinden, wie man an sie herankommt, und welche Auswirkungen deren Änderungen für andere haben.

To-do-Liste für die Implementierung einer Data Fabric

Betrachtet man Data Fabric aus dieser Perspektive, dann ist der Ansatz eine konsequente Erweiterung intelligenter Datenintegration und beschleunigt die digitale Transformation von Unternehmen. Zur Implementierung einer Data-Fabric-Architektur sollten folgende Überlegungen und Prozesse angestoßen werden:

  • Formulieren der konkreten Fragestellung, die durch die Datenintegration beantwortet werden soll.
  • Sammeln und Analysieren relevanter Daten nach der Maßgabe, welche Datensätze, Taxonomien und andere Informationen am sichersten zur Lösung der Fragestellung zu führen.
  • Bereinigen der gesammelten Daten, beispielsweise durch das Entfernen ungültiger oder veralteter Einträge, Beseitigen unstrukturierter beziehungsweise widersprüchlicher Daten, die Anpassung von Datenfeldern usw.
  • Erstellen eines sowohl für Menschen als auch Maschinen aussagekräftigen Datenmodells: Analysieren der verschiedenen Datenschemata, Wiederverwenden oder Erstellen von Ontologien, Anwendungsprofilen etc.
  • Datenintegration mithilfe solcher ETL/ELT-Prozesse, die sowohl strukturierte als auch unstrukturierte Daten beschleunigt laden können.
  • Harmonisierung von Daten durch Abgleich der Beschreibungen ein und derselben Entität in Datensätzen mit überlappendem Geltungsbereich, Verarbeitung ihrer Attribute und ggf. Zusammenführen der Information.
  • Anreichern der Daten durch Reasoning und Analytics, indem neue Entitäten und Beziehungen extrahiert und somit bislang unbekannte Informationen generiert werden
  • Maximieren der Datennutzbarkeit durch Knowledge-Discovery-Tools wie SPARQL-Abfragen, GraphQL-Schnittstellen, Datenvisualisierung usw.
  • Pflege der Informationen und kontinuierliche Weiterentwicklung der Datenstruktur

Eine Möglichkeit, den Data-Fabric-Gedanken zeitnah im Unternehmen umzusetzen, ist beispielsweise die Nutzung von MQTT (Message Queuing Telemetry Transport).

MQTT als Anstoß für einen skalierbaren Data-Fabric-Prozess

Das Kürzel MQTT steht für ein offenes, standardisiertes und ressourcenschonendes Nachrichtenprotokoll. Es arbeitet cloudbasiert und ist vor allem für die Kommunikation zwischen nicht direkt miteinander verbundenen IT-Systemen geeignet. Dazu nutzt MQTT das sog. Publisher-Subscriber-Prinzip: eine Datenquelle (z.B. ein Temperatursensor) sendet über einen Publish Informationen an den zwischengeschalteten MQTT-Broker. Der Broker ordnet die eingehenden Daten entsprechend der vom Empfänger-Client abonnierter Themen (Topics) und gibt sie an alle für dieses Topic angemeldeten Subscriber (z.B. Laptops oder mobile Geräte) weiter. Zudem ist MQTT hoch skalierbar, kann Millionen von Endpunkten miteinander verbinden und liefert dennoch vertrauenswürdige Daten mit hoher Datenqualität. Ein MQTT Broker kann somit verschiedene Daten wie Texte, Bilder und auch binäre Dateien, wie z. B. Videos, allen angebundenen IT-Systemen zur Auswertung zur Verfügung stellen. Eine weitere Option zur schnellen Implementierung von Data Fabric sind vorgefertigte, also programmierfreie Konnektoren, die sich mit nahezu allen Datenquellen verbinden. Dabei fungiert eine Data Fabric sowohl als Datenquelle als auch als Datenverbraucher.

Zur Verbesserung des Wissensmanagement in Zeiten von Big Data gibt es allerdings keinen allgemeingültigen Ansatz. Bei der Realisierung einer Data Fabric und damit eines Self-Service-Datenkonsums hat jedes Unternehmen unterschiedliche Anforderungen und Ziele, so dass oft eine individualisierte Strategie erforderlich ist. Ein Grundsatz gilt allerdings für alle Data-Fabric-Strukturen: Daten sollten FAIR (findable – accessible – interoperable – reusable) sein, also auffindbar, zugänglich, interoperabel und wiederverwendbar.

Schaltfläche "Zurück zum Anfang"