Da die Möglichkeiten der Datenspeicherung sich weiterentwickeln und immer komplexer werden, stellt sich die Frage, welcher Ansatz der richtige ist. Es ist nicht immer leicht, Argumente für oder gegen eine bestimmte Option zu finden. Es ist wichtig, Vergleiche zwischen den verschiedenen Systemen, Datenbanktypen und Speicherformaten zu ziehen, insbesondere im Hinblick auf die spezifischen Datenanforderungen Ihrer Organisation. Beginnen wir mit einer kleinen Vergleichstabelle eines MarkLogic Data Hubs und betrachten dann die allgemeinen Unterschiede zwischen Data Hubs und Data Warehouses.
MarkLogic Data Hub | Data Warehouse | |
---|---|---|
Use Cases |
|
|
Datenmodell |
|
|
Suchen & Abfragen |
|
|
Datenaufnahme |
|
|
Datenqualität |
|
|
Datenanreicherung |
|
|
Sicherheit |
|
|
Skalierbarkeit |
|
|
Implementierung |
|
|
Ausgereifte Lösung |
|
|
Data Warehouses sind Datenspeicher, die „das Geschäft beobachten“ und für die Analyse von Daten entwickelt wurden, die oft aus vorgelagerten Transaktionssystemen stammen, die „das Geschäft betreiben“. Ihr Zweck ist es, Analysten eine aggregierte, übergreifende Ansicht der Daten zu bieten.
Data Warehouses verwenden ein relationales Modell, in dem Daten in stark strukturierten Zeilen und Spalten verwaltet werden. Die Datenstruktur, oder das Schema, wird im Voraus definiert (alias Schema on Write) und ist für schnelle analytische Abfragen mit SQL optimiert. Bei analytischen Abfragen werden die Daten in der Regel verknüpft, aggregiert und gefiltert.
Obwohl es Data Warehouses schon seit Jahrzehnten gibt, sind die heutigen modernen Data Warehouses speziell für die Cloud konzipiert. Beispiele wie Snowflake und Redshift sind beliebte Reinkarnationen traditioneller Data Warehouses wie Netezza und Teradata. Snowflake sagt über sich selbst, dass sie ein „glorifiziertes SQL“ sind. Diese Cloud-nativen Data Warehouses bieten Cloud-Skala, Cloud-Ökonomie und werden vollständig verwaltet. Zudem haben sie sich weiterentwickelt, um JSON in gewissem Umfang zu unterstützen. Ihr Kern-Use-Case ist jedoch immer noch derselbe – sie unterstützen unternehmensweite BI und Analysen auf relationalen Daten.
Betrachten wir ein typisches Beispiel dafür, wie ein Data Warehouse verwendet wird. Stellen Sie sich vor, eine große Bank betreibt Echtzeit-Handelssysteme zur Abwicklung von Transaktionen. Diese Transaktionen erfolgen in mehreren OLTP-Systemen (Online Transactional Processing) in der Bank und werden dann mithilfe von ETL-Tools zum Extrahieren, Transformieren und Laden der Daten in ein zentrales OLAP-Data Warehouse (Online Analytical Processing) aggregiert.
Das Warehouse wird für die weitere Back-End-Verarbeitung eingesetzt (z. B. Handelsabstimmung), Analyse (z. B. aggregierte Risiko-Aussetzung) und Berichterstattung (z. B. Anfragen von Aufsichtsbehörden).
Data Hubs sind Datenspeicher, die als stabiler Integrations-Hub in einer Hub-and-Spoke-Architektur fungieren und eine zentralisierte Ansicht auf Ihre wichtigsten Datenbestände bieten. Sie verwenden eine Multi-Modell-Datenbank, um multistrukturierte Daten unterschiedlicher Art zu speichern, und verfügen auch über die Tools, um diese Daten zu pflegen (Anreicherung, Mastering, Harmonisierung). Sie sind sowohl betrieblich als auch transaktional, d. h., sie können transaktionale Anwendungen steuern, für fortgeschrittene Analysen verwendet werden oder einfach andere nachgelagerte Systeme versorgen.
Obwohl sie als Aufzeichnungssysteme dienen können, werden Data Hubs in den meisten Architekturen üblicherweise als gemeinsamer Integrationspunkt bezeichnet, wo sie zur Erstellung einer 360-Grad-Ansicht der Organisation verwendet werden. Als Faustregel gilt, dass ein Data Hub kein eingebundenes Upgrade oder ein Ersatz für ein Data Warehouse ist. Data Hubs und Data Warehouses können problemlos nebeneinander existieren und Kunden von MarkLogic verwenden häufig beides zusammen.
Im Vergleich zu Data Warehouses bieten Data Hubs eine größere Agilität, verfügen über integrierte Tools zur Datenanreicherung und sind im Betrieb einsatzbereit (nicht nur analytisch).
Data Hubs bieten agile DataOps. Mit ihnen können die Prinzipien der agilen Entwicklung angewendet werden, um die Daten in der Datenebene zu verwalten. Dies ist möglich, weil Data Hubs kein striktes Schema erfordern, das im Voraus definiert werden muss, was einen Wasserfallansatz erzwingt. Stattdessen können die Rohdaten in jedem beliebigen Format in einen Data Hub geladen werden. Die Rohdaten können dann angereichert und für die nachgeschaltete Verwendung zweckgerecht aufbereitet werden. Dieser Prozess wird oft als „ELT“ bezeichnet, weil die Daten zuerst geladen und dann iterativ umgewandelt werden, um den Anforderungen des Unternehmens gerecht zu werden. Schemata können für die angereicherten Daten oder zur Abfragezeit definiert werden (auch bekannt als Schema on Read).
Data Hubs zeichnen sich vor allem dann aus, wenn es Unklarheiten gibt. Sie unterstützen Szenarien, in denen es unbekannte, komplexe Datenquellen gibt, in die möglicherweise gestreamt (oder per Stapelverarbeitung geladen) werden müssen, sowie für Use Cases, in denen nicht klar ist, wie die Daten später verwendet werden sollen.
Der Grund, warum Data Hubs so gut mit Unklarheiten umgehen können, liegt darin, dass sie alles indizieren und unmittelbar nach dem Einlesen der Daten Abfragen im Suchstil liefern. Data Hubs verfügen zudem über integrierte Tools, um Unklarheiten im Laufe der Zeit aufzulösen. Wenn sich die nachgeschalteten Use Cases konkretisieren, definieren sie, wie die Quelldaten harmonisiert und angereichert werden müssen.
Hier sind einige Beispiele der Integrationsherausforderungen, die ein Data Hub lösen kann:
Data Hubs sind im Betrieb einsatzbereit. Sie können einen Echtzeit-Überblick über das Geschäft bieten, der in Echtzeit auf dem neuesten Stand gehalten werden und bei Bedarf sogar in das vorgelagerte System zurückgeschrieben werden kann. Durch die Möglichkeit der Echtzeit-Aktualisierungen mit Transaktionsunterstützung bieten Data Hubs einen zuverlässigen Datenspeicher, in dem die integrierten Daten direkt aktualisiert werden können, ohne Governance und Genauigkeit zu beeinträchtigen.
Hier sind einige der Anzeichen, die darauf hinweisen, dass ein Data Hub eine gute Wahl für Ihre Architektur ist:
Unsere Kunden nutzen den MarkLogic Data Hub Service in der Regel für Use Cases wie den Aufbau einer einheitlichen Ansicht, Search und Discovery und betriebliche Analysen.
Data Warehouses haben sich in Unternehmen bewährt und fast alle Organisationen verfügen über ein oder mehrere Data Warehouses und oft auch über eine Reihe von Data Marts, die aus ihnen ausgegliedert wurden. Data Warehouses werden immer dann nützlich sein, wenn die Daten hochgradig strukturiert und gut definiert sind und wenn auch der Zweck des Warehouse gut definiert ist.
Wenn Sie nur schnelle SQL-Abfragen über Zeilen und Spalten ausführen müssen, dann ist ein Data Warehouse eine großartige Lösung. Data Warehouses sind für das Laden strukturierter Daten und Abfragen mit SQL optimiert. Da sie seit mehr als 30 Jahren im gesamten Unternehmen dominieren, gibt es eine Fülle von Mitarbeitern mit Data-Warehouse- und SQL-Kenntnissen.
Wenn Sie also mit Ihrem Data Warehouse zufrieden sind und keine Probleme mit der Datenintegration haben, gibt es keinen Grund, zu wechseln!
Data Hubs und Data Warehouses können problemlos nebeneinander existieren und unsere Kunden verwenden häufig beides zusammen.
In den meisten Fällen haben Organisationen bereits Data Warehouses, aber dann taucht ein neuer Use Case auf, bei dem die Integration der Daten aus diesen Warehouses erforderlich ist, und sie möchten nicht viel Zeit und Geld für ETL und Datenmodellierung aufwenden, um ein gemeinsames Schema zur Integration aller Daten zu erstellen.
Um dieses Problem zu lösen, können Organisationen einen Data Hub einsetzen, um Daten aus diesen Silo-Warehouses (und allen anderen Datensilos) zu integrieren. Von dort aus kann der Data Hub Anwendungen unterstützen oder angereicherte Daten an ein anderes nachgelagertes Data Warehouse weiterleiten oder diese in ein Dateisystem auslagern, das für kostengünstige Speicherung optimiert ist.
Das Data Warehouse bleibt also nach wie vor ein wichtiger Teil der Architektur, aber der Data Hub dient dazu, den gesamten Datenintegrationsprozess agiler und vertrauenswürdiger zu gestalten.
Wir haben viele Kunden, die sich dafür entschieden haben, ihre Data Warehouses mit einem MarkLogic Data Hub zu ergänzen bzw. durch es zu ersetzen. Einige Beispiele sind AIRBUS, AbbVie, Northern Trust, Hannover Rück und Chevron.
Mit der Nutzung dieser Webseite stimmen Sie der Verwendung von Cookies gemäß der MarkLogic Datenschutzrichtlinie zu.