MLTV now live! New videos, new content hub.

Überblick

Da die Möglichkeiten der Datenspeicherung sich weiterentwickeln und immer komplexer werden, stellt sich die Frage, welcher Ansatz der richtige ist. Es ist nicht immer leicht, Argumente für oder gegen eine bestimmte Option zu finden. Es ist wichtig, Vergleiche zwischen den verschiedenen Systemen, Datenbanktypen und Speicherformaten zu ziehen, insbesondere im Hinblick auf die spezifischen Datenanforderungen Ihrer Organisation. Beginnen wir mit einer kleinen Vergleichstabelle eines MarkLogic Data Hubs und betrachten dann die allgemeinen Unterschiede zwischen Data Hubs und Data Warehouses.

Vergleichstabelle

MarkLogic Data Hub Data Warehouse
Use Cases
  • Analyse von strukturierten und unstrukturierten Daten
  • Transaktionale Anwendungen möglich
  • BI und Berichterstattung über strukturierte Daten
Datenmodell
  • Multi-Modell
  • RELATIONALE
Suchen & Abfragen
  • Reichhaltige, mehrdimensionale Abfragen im Suchstil
  • Abfragen mit JavaScript, XQuery, SPARQL und SQL
  • SQL-Abfragen zu strukturierten Daten, die oft im Voraus definiert werden, damit das Warehouse optimiert werden kann
Datenaufnahme
  • Optimiert zum Laden mehrfach strukturierter Daten
  • Optimiert für das Laden relationaler Daten
Datenqualität
  • Behandelt Rohdaten, auch angereicherte
  • Schema on Read
  • Konzipiert für sehr angereicherte Daten
  • Schema on Write
Datenanreicherung
  • Unterstützt Datenpflege (Anreicherung, Harmonisierung, Mastering)
  • Speichert Metadaten mit den Daten
  • ETL-Tools zum Anreichern von Daten vor dem Laden erforderlich
Sicherheit
  • Konzipiert für den Umgang mit missionskritischen Daten
  • Konzipiert für den Umgang mit missionskritischen Daten
Skalierbarkeit
  • Elastische, skalierbare, geclusterte Architektur
  • Hängt davon ab. Die meisten Cloud Data Warehouses sind skalierbar ausgelegt. Bei anderen ist erhebliche Arbeit notwendig oder sie sind teuer
Implementierung
  • Jede Umgebung
  • Jede Umgebung
Ausgereifte Lösung
  • Moderne Architektur, die in den letzten 5 Jahren beliebt wurde
  • Legacy-Architektur, die seit über dreißig Jahren verwendet wird

Was ist ein Data Warehouse?

Data Warehouses sind Datenspeicher, die „das Geschäft beobachten“ und für die Analyse von Daten entwickelt wurden, die oft aus vorgelagerten Transaktionssystemen stammen, die „das Geschäft betreiben“. Ihr Zweck ist es, Analysten eine aggregierte, übergreifende Ansicht der Daten zu bieten.

Data Warehouses verwenden ein relationales Modell, in dem Daten in stark strukturierten Zeilen und Spalten verwaltet werden. Die Datenstruktur, oder das Schema, wird im Voraus definiert (alias Schema on Write) und ist für schnelle analytische Abfragen mit SQL optimiert. Bei analytischen Abfragen werden die Daten in der Regel verknüpft, aggregiert und gefiltert.

Obwohl es Data Warehouses schon seit Jahrzehnten gibt, sind die heutigen modernen Data Warehouses speziell für die Cloud konzipiert. Beispiele wie Snowflake und Redshift sind beliebte Reinkarnationen traditioneller Data Warehouses wie Netezza und Teradata. Snowflake sagt über sich selbst, dass sie ein „glorifiziertes SQL“ sind. Diese Cloud-nativen Data Warehouses bieten Cloud-Skala, Cloud-Ökonomie und werden vollständig verwaltet. Zudem haben sie sich weiterentwickelt, um JSON in gewissem Umfang zu unterstützen. Ihr Kern-Use-Case ist jedoch immer noch derselbe – sie unterstützen unternehmensweite BI und Analysen auf relationalen Daten.

Betrachten wir ein typisches Beispiel dafür, wie ein Data Warehouse verwendet wird. Stellen Sie sich vor, eine große Bank betreibt Echtzeit-Handelssysteme zur Abwicklung von Transaktionen. Diese Transaktionen erfolgen in mehreren OLTP-Systemen (Online Transactional Processing) in der Bank und werden dann mithilfe von ETL-Tools zum Extrahieren, Transformieren und Laden der Daten in ein zentrales OLAP-Data Warehouse (Online Analytical Processing) aggregiert.

Das Warehouse wird für die weitere Back-End-Verarbeitung eingesetzt (z. B. Handelsabstimmung), Analyse (z. B. aggregierte Risiko-Aussetzung) und Berichterstattung (z. B. Anfragen von Aufsichtsbehörden).

Was ist ein Data Hub?

Data Hubs sind Datenspeicher, die als stabiler Integrations-Hub in einer Hub-and-Spoke-Architektur fungieren und eine zentralisierte Ansicht auf Ihre wichtigsten Datenbestände bieten. Sie verwenden eine Multi-Modell-Datenbank, um multistrukturierte Daten unterschiedlicher Art zu speichern, und verfügen auch über die Tools, um diese Daten zu pflegen (Anreicherung, Mastering, Harmonisierung). Sie sind sowohl betrieblich als auch transaktional, d. h., sie können transaktionale Anwendungen steuern, für fortgeschrittene Analysen verwendet werden oder einfach andere nachgelagerte Systeme versorgen.

Obwohl sie als Aufzeichnungssysteme dienen können, werden Data Hubs in den meisten Architekturen üblicherweise als gemeinsamer Integrationspunkt bezeichnet, wo sie zur Erstellung einer 360-Grad-Ansicht der Organisation verwendet werden. Als Faustregel gilt, dass ein Data Hub kein eingebundenes Upgrade oder ein Ersatz für ein Data Warehouse ist. Data Hubs und Data Warehouses können problemlos nebeneinander existieren und Kunden von MarkLogic verwenden häufig beides zusammen.

Was sind die Hauptvorteile eines Data Hub?

Im Vergleich zu Data Warehouses bieten Data Hubs eine größere Agilität, verfügen über integrierte Tools zur Datenanreicherung und sind im Betrieb einsatzbereit (nicht nur analytisch).

Data Hubs bieten agile DataOps. Mit ihnen können die Prinzipien der agilen Entwicklung angewendet werden, um die Daten in der Datenebene zu verwalten. Dies ist möglich, weil Data Hubs kein striktes Schema erfordern, das im Voraus definiert werden muss, was einen Wasserfallansatz erzwingt. Stattdessen können die Rohdaten in jedem beliebigen Format in einen Data Hub geladen werden. Die Rohdaten können dann angereichert und für die nachgeschaltete Verwendung zweckgerecht aufbereitet werden. Dieser Prozess wird oft als „ELT“ bezeichnet, weil die Daten zuerst geladen und dann iterativ umgewandelt werden, um den Anforderungen des Unternehmens gerecht zu werden. Schemata können für die angereicherten Daten oder zur Abfragezeit definiert werden (auch bekannt als Schema on Read).

Data Hubs zeichnen sich vor allem dann aus, wenn es Unklarheiten gibt. Sie unterstützen Szenarien, in denen es unbekannte, komplexe Datenquellen gibt, in die möglicherweise gestreamt (oder per Stapelverarbeitung geladen) werden müssen, sowie für Use Cases, in denen nicht klar ist, wie die Daten später verwendet werden sollen.

Der Grund, warum Data Hubs so gut mit Unklarheiten umgehen können, liegt darin, dass sie alles indizieren und unmittelbar nach dem Einlesen der Daten Abfragen im Suchstil liefern. Data Hubs verfügen zudem über integrierte Tools, um Unklarheiten im Laufe der Zeit aufzulösen. Wenn sich die nachgeschalteten Use Cases konkretisieren, definieren sie, wie die Quelldaten harmonisiert und angereichert werden müssen.

Ist ein Data Hub gut für Integration?

Hier sind einige Beispiele der Integrationsherausforderungen, die ein Data Hub lösen kann:

  • Unterschiedliche Namen (z. B. Nachname anstatt Familienname – die gleichen Werte werden unterschiedlich beschrieben, nur weil jemand zwei Spalten unterschiedlich benannt hat)
  • Strukturelle Unterschiede (z. B. unterschiedliche Anzahl und Kombination von Feldern – „boxen_verfügbar“ kann in einem System der Gesamtzahl der Boxen im Lager entsprechen, zu denen ein Feld namens „alle_boxen_zählen“ hinzugerechnet wird, um die Gesamtzahl der Artikel abzuleiten, aber in einem anderen System kann dies ein Feld „alle_artikel“ unabhängig von der Anzahl der Boxen direkt repräsentieren)
  • Semantische Unterschiede (ähnlich wie bei den unterschiedlichen Namen, nur dass in diesem Fall jemand etwas andere Namen gewählt hat und sich die Werte auch leicht unterscheiden – ein System kann drei Status für Patienten haben, ein anderes fünf. Diese Statusangaben überschneiden sich oft und lassen sich nur schwer gegenseitig zuweisen ({Geplant, Nachbetreuung_notwendig, Inaktiv} gegenüber {Aufnahme, Geplant, Nur_Telemedizin, Entlassen}).

Data Hubs sind im Betrieb einsatzbereit. Sie können einen Echtzeit-Überblick über das Geschäft bieten, der in Echtzeit auf dem neuesten Stand gehalten werden und bei Bedarf sogar in das vorgelagerte System zurückgeschrieben werden kann. Durch die Möglichkeit der Echtzeit-Aktualisierungen mit Transaktionsunterstützung bieten Data Hubs einen zuverlässigen Datenspeicher, in dem die integrierten Daten direkt aktualisiert werden können, ohne Governance und Genauigkeit zu beeinträchtigen.

Was sind die häufigsten Use Cases für einen Data Hub?

Hier sind einige der Anzeichen, die darauf hinweisen, dass ein Data Hub eine gute Wahl für Ihre Architektur ist:

  • Wenn Sie komplexe, sich ändernde Datenquellen und -anwendungen haben, sind Data Hubs gut geeignet, multistrukturierte, sich ändernde Daten zu integrieren. Wenn Sie sich also nicht ganz sicher sind, was die eingehenden Datenquellen beinhalten, wann die Daten verfügbar sein werden und Sie viele komplexe Schemata integrieren müssen sowie vorgelagerte Datenquellen haben, die sich häufig ändern oder von unbekannter Qualität sind, oder wenn Sie sich nicht ganz sicher sind, wofür die integrierten Daten verwendet werden, dann ist ein Data Hub eine gute Wahl
  • Wenn das Unternehmen die Daten schnell liefern muss –Data Hubs bieten einen erheblichen Vorteil im Hinblick auf die Agilität. Data Hubs sind also eine gute Wahl, wenn Sie nicht auf viele Vorab-Datenmodellierungen warten können und das Unternehmen die Daten schnell liefern muss. Sie sind auch eine gute Wahl, wenn sich die Anforderungen des Unternehmens häufig ändern und Sie agile DataOps benötigen
  • Wenn Sie komplexe (ungeplante) Abfragen haben – Die Abfrage von Daten in einem Data Hub gleicht eher einer Suche bei Google und eignet sich daher ideal, um umfangreiche Fragen zu Ihren Daten zu stellen, die sonst in einem herkömmlichen Data Warehouse unmöglich wären. Anstatt in Zeilen und Spalten zu denken und sich den Kopf darüber zu zerbrechen, welche komplexen Verknüpfungen erforderlich sind, können Sie sich eine Abfrage mehrdimensionaler Entitäten und Beziehungen vorstellen, die Werte, Metadaten, Wörter und Sätze sowie die Struktur einschließt
  • Wenn Sie Betriebsansichten in Echtzeit benötigen - Data Hubs sind operativ und transaktional. Deshalb sind sie eine gute Wahl, wenn Ihr Analyseteam eine Echtzeitansicht und keine historische Momentaufnahme benötigt. Oder, wenn ein Use Case erfordert, dass Analysten in der Lage sein müssen, in das System zurückzuschreiben und eine Rückkopplungsschleife als Teil eines Wissenssystems zu erstellen
  • Wenn Sie eine stabile Plattform und einen vertrauenswürdigen Integrationspunkt benötigen – Data Hubs werden von einer Datenbank unterstützt. Dies bedeutet, dass Data Hubs die Daten behalten, HA/DR, Transaktionskonsistenz, Unternehmenssicherheit und all die anderen Funktionen bieten, die erforderlich sind, um als stabile Plattform zu fungieren, die Ihre Gesamtarchitektur verschlankt und nicht zu einem weiteren Silo wird

Unsere Kunden nutzen den MarkLogic Data Hub Service in der Regel für Use Cases wie den Aufbau einer einheitlichen Ansicht, Search und Discovery und betriebliche Analysen.

Wann ist ein Data Warehouse die bessere Lösung?

Data Warehouses haben sich in Unternehmen bewährt und fast alle Organisationen verfügen über ein oder mehrere Data Warehouses und oft auch über eine Reihe von Data Marts, die aus ihnen ausgegliedert wurden. Data Warehouses werden immer dann nützlich sein, wenn die Daten hochgradig strukturiert und gut definiert sind und wenn auch der Zweck des Warehouse gut definiert ist.

Wenn Sie nur schnelle SQL-Abfragen über Zeilen und Spalten ausführen müssen, dann ist ein Data Warehouse eine großartige Lösung. Data Warehouses sind für das Laden strukturierter Daten und Abfragen mit SQL optimiert. Da sie seit mehr als 30 Jahren im gesamten Unternehmen dominieren, gibt es eine Fülle von Mitarbeitern mit Data-Warehouse- und SQL-Kenntnissen.

Wenn Sie also mit Ihrem Data Warehouse zufrieden sind und keine Probleme mit der Datenintegration haben, gibt es keinen Grund, zu wechseln!

Wie sie zusammenarbeiten können

Data Hubs und Data Warehouses können problemlos nebeneinander existieren und unsere Kunden verwenden häufig beides zusammen.

In den meisten Fällen haben Organisationen bereits Data Warehouses, aber dann taucht ein neuer Use Case auf, bei dem die Integration der Daten aus diesen Warehouses erforderlich ist, und sie möchten nicht viel Zeit und Geld für ETL und Datenmodellierung aufwenden, um ein gemeinsames Schema zur Integration aller Daten zu erstellen.

Um dieses Problem zu lösen, können Organisationen einen Data Hub einsetzen, um Daten aus diesen Silo-Warehouses (und allen anderen Datensilos) zu integrieren. Von dort aus kann der Data Hub Anwendungen unterstützen oder angereicherte Daten an ein anderes nachgelagertes Data Warehouse weiterleiten oder diese in ein Dateisystem auslagern, das für kostengünstige Speicherung optimiert ist.

Das Data Warehouse bleibt also nach wie vor ein wichtiger Teil der Architektur, aber der Data Hub dient dazu, den gesamten Datenintegrationsprozess agiler und vertrauenswürdiger zu gestalten.

Mehr erfahren

Wir haben viele Kunden, die sich dafür entschieden haben, ihre Data Warehouses mit einem MarkLogic Data Hub zu ergänzen bzw. durch es zu ersetzen. Einige Beispiele sind AIRBUS, AbbVie, Northern Trust, Hannover Rück und Chevron.

Anmeldung zu unserer Live-Demo

Erfahren Sie, wie MarkLogic Daten schneller integriert, Kosten reduziert und einen sicheren Datenaustausch ermöglicht.

Jetzt Registrieren

Auf dieser Website werden Cookies verwendet.

Mit der Nutzung dieser Webseite stimmen Sie der Verwendung von Cookies gemäß der MarkLogic Datenschutzrichtlinie zu.