MLTV now live! New videos, new content hub.

Überblick

Alle großen Organisationen verfügen über riesige Datenmengen, die in der Regel auf viele verschiedene Systeme verteilt sind. Dies war keine bewusste Entscheidung, sondern eher eine Aneinanderreihung pragmatischer Kompromisse. Silos sind technische Schulden und sie nehmen seit der Einführung von Software-as-a-Service-Anwendungen (SaaS) und anderen Cloud-Angeboten zu, was zur mehr Reibung zwischen Unternehmen und IT führt. Die Integration dieser Datensilos ist bekanntermaßen schwierig, und es gibt klare Herausforderungen, wenn man versucht, einen traditionellen Data-Warehouse-Ansatz zu verwenden. Aus diesem Grund haben IT-Organisationen nach modernen Ansätzen gesucht, um die Arbeit zu erledigen (auf dringenden Wunsch des Unternehmens).

Dieser Vergleich deckt drei moderne Ansätze der Datenintegration ab: Data Lakes, Datenvirtualisierung oder -federation und Data Hubs. Alle drei Ansätze vereinfachen den Self-Service-Verbrauch von Daten aus heterogenen Quellen, ohne bestehende Anwendungen zu stören. Allerdings gibt es bei jedem dieser neuen Ansätze Kompromisse. Außerdem schließen sich die Ansätze nicht gegenseitig aus – viele Organisationen nutzen ihren Data Lake weiterhin neben einer auf einem Data Hub zentrierten Architektur.

Vergleichstabelle

MarkLogic Data Hub Data Lake Datenvirtualisierung
Datenaufnahme
  • Laden von Rohdaten in jedem beliebigen Format
  • Daten, die physisch migriert und in einer Datenbank behalten wurden
  • Laden von Rohdaten in jedem beliebigen Format
  • Daten, die physisch migriert und in HDFS oder einem Objektspeicher gespeichert wurden
  • Virtuelle Ansichten der Daten
  • Keine Daten werden physisch bewegt
Datenmodell
  • Multi-Modell
  • Native JSON-, XML- und RDF-Speicherung
  • HDFS ist ein Dateisystem, das mehrere Datenmodelle unterstützt
  • Oft dasselbe wie die zugrunde liegenden federierten Systeme, kann aber auch neue zusammengesetzte Ansichten oder semantische Ebenen erzeugen
Suchen & Abfragen
  • Integrierte Volltextsuche
  • Vollständige Indexierung (Wörter, Struktur usw.)
  • Relationale Ansichten von unstrukturierten Daten
  • Hängt davon ab. Es gibt verschiedene Tools für den Datenzugriff: Hive, Hbase, Impala, Presto, Drill usw. Diese Zusatztools versuchen, Abfragefunktionen hinzuzufügen, sind jedoch im Allgemeinen begrenzt und schwierig zu verwalten
  • Abfragen werden optimiert und an die zugrunde liegenden Systeme weitergeleitet. Abhängig von den in diesen Systemen definierten Indizes
Betriebsfähigkeiten
  • Bedarfsgerechte ACID-Transaktionen
  • Datenverarbeitung in Echtzeit
  • REST, JDBC, ODBC usw.
  • Keine ACID-Transaktionen, kann keine transaktionalen Anwendungen steuern
  • Andere Tools zur Operationalisierung der Daten
  • Keine ACID-Transaktionen, kann keine transaktionalen Anwendungen steuern
  • Kann eine Zugriffsebene für den Datenverbrauch über JDBC, ODBC, REST usw. bereitstellen
Pflege

(Harmonisierung, Anreicherung, Mastering)

  • Leistungsstarke bedarfsgerechte Daten-Pipelines
  • Unterstützung für Tools von Drittanbietern (MuleSoft, Apache NiFi)
  • Benutzerfreundliche Data Hub-Benutzeroberfläche
  • Smart Mastering
  • Agile Datenanreicherung
  • Hängt davon ab. Es gibt einige Tools, die „ELT“ auf Hadoop unterstützen. Die meisten Use Cases beinhalten ein ETL-Tool vor oder nach dem Verschieben von Daten in einen Data Lake
  • Gewisse Unterstützung für die Datenanreicherung, wenn die Daten zurückgegeben oder verarbeitet werden, stützt sich aber normalerweise auf Datenpipeline- oder ETL-Tools
Sicherheit
  • Detaillierte Sicherheitskontrollen
  • RBAC auf Dokument-/Elementebene
  • Beim Export schwärzen
  • Erweiterte Verschlüsselung
  • Schlechte Sicherheit und Governance der Daten (oder zumindest schwer umsetzbar und zusätzliche Werkzeuge notwendig, um Lücken zu füllen, wie Apache Atlas, Cloudera Navigator)
  • Sicherheitskontrollen sind sowohl für die virtuelle Datenbank als auch für die zugrunde liegende Datenbank erforderlich – beide Ebenen müssen gesichert werden
Skalierbarkeit
  • Petabyte-Skalierbarkeit
  • Höhere Kosten aufgrund des Indexierungsaufwands bei einigen Implementierungen. Außerdem bietet der MarkLogic Data Hub Service eine vorhersehbare, kostengünstige automatische Skalierung
  • Petabyte-Skalierbarkeit
  • Ideal für kostengünstige Speicherung
  • Sie ist nur so gut wie der langsamste Verbund und wird von der Systembelastung oder Problemen in jedem Verbund beeinflusst.
Leistung
  • Leistungsstarke Transaktionen und Analysen
  • Dedizierte, von den Quellsystemen getrennte Hardware für unabhängige Skalierung
  • Leistungsstarke Analytik
  • Leistung hängt von der Infrastruktur ab, auf der das System läuft
  • Leistungsstarke Analytik
  • Leistung hängt sowohl von der Infrastruktur ab, auf der die virtuelle Datenbank läuft, als auch von der Leistung der Infrastruktur der zugrunde liegenden Systeme
  • Leistung ist auch von allen Netzwerkverbindungen abhängig
Implementierung
  • Selbstverwaltete Implementierung in jeder Umgebung
  • Zudem vollständig verwaltete, serverlose Bereitstellung mit dem MarkLogic Data Hub Service
  • Selbstverwaltete Implementierung in jeder Umgebung
  • Da keine Daten migriert werden, sind sie sehr schnell einsatzbereit. Möglicherweise muss nur eine VM konfiguriert werden.

Was ist ein Data Lake?

Ein Data Lake ist ein zentrales Repository, das Datenspeicherung in jeder Größenordnung und Struktur ermöglicht. Sie wurden mit dem Aufkommen von Hadoop beliebt, einem verteilten Dateisystem, mit dem sehr einfach war, Rohdaten in ein zentrales Repository zu verschieben, wo sie zu geringen Kosten gespeichert werden konnten. In Data Lakes sind die Daten möglicherweise nicht gepflegt (angereichert, gemastert, harmonisiert) oder durchsuchbar und normalerweise werden andere Tools aus dem Hadoop-Ökosystem benötigt, um die Daten in einem mehrstufigen Prozess zu analysieren oder zu operationalisieren. Jedoch haben Data Lakes den Vorteil, dass für das Laden von Daten nicht viel Arbeit am Front-End erforderlich ist.

Zu den Use Cases von Data Lakes gehören: Einsatz als Analyse-Sandkasten, Training von Machine-Learning-Modellen, Füttern von Vorbereitungs-Pipelines für Daten oder einfach eine kostengünstige Datenspeicherung anzubieten.

Vor einigen Jahren wurde die Hadoop-Landschaft von drei Hauptakteuren umkämpft: Cloudera, Hortonworks und MapR. Heute ist nur noch Cloudera nach der Fusion mit Hortonworks und dem Notverkauf von MapR übrig geblieben.

Für viele Organisationen sind Objektspeicher wie Amazon S3 de facto zu Data Lakes geworden und unterstützen den Übergang von einer On-premis-Hadoop-Landschaft in die Cloud.

Neben dem Hadoop-Kern gibt es im Apache-Ökosystem noch viele andere verwandte Tools. Beispielsweise sind Spark und Kafka zwei beliebte Tools zur Verarbeitung von Streaming-Daten und zur Durchführung von Analysen in einer ereignisbasierten Streaming-Architektur (sie werden von Databricks bzw. Confluent vermarktet).

Ein detaillierter Bericht über diese Instrumente übersteigt den Umfang dieses Vergleichs. Aber im Allgemeinen ergänzen diese Tools in den meisten Use Cases einen Data Hub-Ansatz. Sie verwalten Streaming-Daten, benötigen aber immer noch eine Datenbank. Beispielsweise gibt es bei Kafka kein Datenmodell, Indizes oder eine Möglichkeit, Daten abzufragen. Als Faustregel gilt, dass eine ereignisbasierte Architektur und Analyse-Plattform mit einem darunter liegenden Data Hub vertrauenswürdiger und funktionsfähiger ist als ohne Data Hub.

Was ist Datenvirtualisierung?

Bei der Datenvirtualisierung werden virtuelle Ansichten von den in bestehenden Datenbanken gespeicherten Daten erstellt. Die physischen Daten bewegen sich nicht, aber Sie können immer noch eine integrierte Ansicht der Daten in der neuen virtuellen Datenebene erhalten. Dies wird oft Datenverbund genannt (oder virtuelle Datenbank), da die zugrunde liegenden Datenbanken ein Verbund sind.

Sie haben zum Beispiel einige Oracle- und SAP-Datenbanken laufen und eine Abteilung benötigt Zugriff auf die Daten aus diesen Systemen. Anstatt die Daten über ETL physisch zu verschieben und in einer anderen Datenbank zu behalten, können Architekten die Daten für dieses spezielle Team oder diesen speziellen Use Case virtuell (und schnell) abrufen und integrieren.

Bei der Datenvirtualisierung treffen die Abfragen auf die zugrunde liegende Datenbank. Neuere Virtualisierungstechnologien haben die Planung und Optimierung der Abfragen immer weiter entwickelt. Sie können im Speicher zwischengespeicherte Daten oder die integrierte Massivparallelverarbeitung (MPP) verwenden. Die Ergebnisse werden dann verknüpft und abgebildet, um eine zusammengesetzte Ansicht der Ergebnisse zu erstellen. Viele neuere Datenvirtualisierungstechnologien können auch Daten schreiben (nicht nur lesen). Neuere Lösungen zeigen auch Fortschritte bei der Data Governance, der Maskierung von Daten für verschiedene Rollen und Use Cases und der Verwendung von LDAP zur Authentifizierung.

Einer der Hauptvorteile der Datenvirtualisierung ist die schnellere Amortisierung. Es fallen weniger Arbeit und Kosten zur Einrichtung der Datenabfrage an, da die Daten nicht physisch bewegt werden, wodurch sie Ihre bestehende Infrastruktur weniger stören.

Ein weiterer großer Vorteil der Datenvirtualisierung besteht darin, dass Anwender SQL-Abfragen ad-hoc sowohl auf unstrukturierten als auch auf strukturierten Datenquellen ausführen können - ein Haupt-Use-Case der Datenvirtualisierung.

Bei all diesen Vorteilen – was sind die Nachteile der Datenvirtualisierung?

  • Virtuelle Datenbanken indizieren die Daten nicht und sie haben auch keine getrennte Datenspeicherung, um Indizes zu speichern. Für die Indizes stützen sie sich auf die zugrundeliegenden Quellsysteme – welche oft unzureichend sind.
  • Virtuelle Datenbanken ordnen jede Anfrage einer anderen Anfrage in jedem Quellsystem zu und führen diese bei allen Quellsystemen aus. Dies kann zu Leistungsproblemen im gesamten Netzwerk führen und das System wird immer Probleme mit der Netzwerkkapazität haben.
  • Virtuelle Datenbanken haben keinen Platz, um die Daten zu „pflegen“, die Datenqualität zu erhöhen oder die Datenabstammung oder -geschichte zu verfolgen. Sie führen eine minimale Datenharmonisierung durch, und auch nur dann, wenn Daten zurückgegeben oder verarbeitet werden. Es gibt keine fortbestehende kanonische Form der Daten, um eine zentrale Informationsquelle zu schaffen und Daten sicher mit nachgeschalteten Verbrauchern zu teilen.
  • Virtuelle Datenbanken haben in der Regel begrenzte Sicherheitskontrollen (oder zumindest ist deren Implementierung schwierig). Beispielsweise können virtuelle Datenbanken Daten nur auf Tabellenebene sichern, nicht pro Datensatz.
  • Das Volumen virtueller Datenbanken wird immer auf das Datenvolumen in den zugrunde liegenden Quellsystemen beschränkt sein.

Beispiele für Unternehmen, die eigenständige Lösungen zur Datenvirtualisierung anbieten, sind SAS, Tibco, Denodo und Cambridge Semantics. Andere Anbieter wie Oracle, Microsoft, SAP und Informatica betten die Datenvirtualisierung als Merkmal in ihre Vorzeigeprodukte ein.

Was ist ein Data Hub?

Data Hubs sind Datenspeicher, die als Integrationspunkt in einer Hub-and-Spoke-Architektur fungieren. Sie bewegen multistrukturierte Daten physisch und integrieren und speichern sie in der zugrunde liegenden Datenbank.

Hier sind einige der Hauptvorteile eines Data Hub

  • Data Hubs werden von einer zugrunde liegenden Multi-Modell-Datenbank gespeist (das ist bei Data Lakes und virtuellen Datenbanken nicht der Fall), wodurch sie als ein Informationssystem dienen können, mit allen für die Unternehmenssicherheit erforderlichen Funktionen, einschließlich Datenvertraulichkeit (Zugriffskontrolle), Datenverfügbarkeit (HA/DR) und Datenintegrität (verteilte Transaktionen).
  • Data Hubs haben die Werkzeuge zur Datenpflege (Anreicherung, Mastering, Harmonisierung) und unterstützen die fortschreitende Harmonisierung, wobei das Ergebnis in der Datenbank behalten wird.
  • Data Hubs unterstützen operative und transaktionale Anwendungen, wofür Data Lakes nicht vorgesehen sind. Auch wenn virtuelle Datenbanken Transaktionen unterstützen können, wird die Last durch die Leistung der zugrunde liegenden Datenbanksysteme gedrosselt.

Aufgrund dieser Vorteile ist ein Data Hub eine tolle Ergänzung zu Data Lakes und Datenvirtualisierung, weil er eine kontrollierte, transaktionale Datenebene bereitstellt. Darauf gehen wir weiter unten ausführlicher ein.

Was sind die häufigsten Use Cases für einen Data Hub?

Hier sind einige der Anzeichen, die darauf hinweisen, dass ein Data Hub eine gute Wahl für Ihre Architektur ist:

  • Wenn Sie Multi-Modell-Daten integrieren möchten – Data Hubs sind gut geeignet, um mehrfach strukturierte, sich ändernde Daten zu integrieren. Sie sind ideal, wenn Sie nachverfolgen wollen, woher Ihre Daten stammen, und ein einheitliches, einfach zu handhabendes Sicherheitsdatenmodell durchsetzen wollen. Sie bieten auch integrierte Pflegefunktionen, um Daten anzureichern, zu harmonisieren und zu mastern (einschließlich Deduplizierung)
  • Wenn das Unternehmen einen schnellen Datendienst benötigt – Data Hubs bieten Agilität sowohl bei der Dateneingabe als auch bei der Erzielung von Werten. Sie sind viel mehr als nur analytische Sandkästen. Ein Data Hub mit gut gepflegten Daten kann bereits nach wenigen Wochen einen Wert für das Unternehmen bei Datendiensten liefern
  • Wenn Sie Betriebsansichten in Echtzeit benötigen – Data Hubs sind operativ und transaktional, bieten Echtzeitansichten und fungieren als zentrale Informationsquelle. Deshalb sind sie eine gute Wahl, wenn Ihr Analyseteam eine Betriebsanalyse in Echtzeit und keine historische Momentaufnahme benötigt.
  • Wenn Sie eine stabile Plattform und einen vertrauenswürdigen Integrationspunkt benötigen – Data Hubs werden von einer Datenbank unterstützt. Sie arbeiten unabhängig von anderen Systemen und sind daher nicht an Netzwerk- oder Infrastrukturbeschränkungen anderer Systeme gebunden. Zudem behalten sie die Daten und bieten HA/DR, Transaktionskonsistenz, Unternehmenssicherheit und all die anderen Funktionen, die eine stabile Plattform braucht.

Unsere Kunden nutzen die MarkLogic Data Hub Platform in der Regel für Use Cases wie die Erstellung einer einheitlichen Ansicht, Betriebsanalysen, Monetarisierung von Inhalten, Forschung und Entwicklung, industrielle IoT, Einhaltung gesetzlicher Vorschriften, ERP-Integration und Mainframe-Migrationen.

Wann ist ein Data Lake die bessere Lösung?

Data Lakes sind Profis für das Streaming von Daten. Sie dienen auch als gute Repositorys, wenn Organisationen eine kostengünstige Option für die Speicherung massiver Datenmengen, strukturiert oder unstrukturiert, benötigen. Die meisten Data Lakes sind HDFS-gestützt und lassen sich leicht in das breitere Hadoop-Ökosystem einbinden. Das macht sie zu einer guten Wahl für große Entwicklungsteams, die Open-Source-Tools verwenden wollen und eine kostengünstige Analyse-Sandbox suchen. Viele Organisationen verlassen sich auf ihren Data Lake als ihre „datenwissenschaftliche Werkbank“, um Machine-Learning-Projekte voranzutreiben, bei denen Datenwissenschaftler Trainingsdaten speichern und Jupyter, Spark oder andere Tools füttern müssen.

Wann ist Datenvirtualisierung die beste Option?

Datenvirtualisierung ist die beste Option für bestimmte Analytik-Use-Cases, bei denen es nicht zu sehr auf die Robustheit eines Data Hub ankommt, um Daten zu integrieren. Sie können schnell eingesetzt werden, und da die physischen Daten nie bewegt werden, erfordert die Bereitstellung der Infrastruktur zu Beginn eines Projekts nicht viel Arbeit. Datenteams wenden Datenvirtualisierung auch häufig an, um SQL-Abfragen auf nicht relationalen Datenquellen ad-hoc durchzuführen.

Wie können ein Data Hub, ein Data Lake und Datenvirtualisierung zusammenarbeiten?

Data Hubs und Datenvirtualisierung sind zwei verschiedene Ansätze zur Datenintegration und können sich bei gleichem Use Case messen. Wir stellen fest, dass Kunden, die einen Data Hub verwenden, in der Regel keine Datenvirtualisierung implementieren müssen. Ein Data Hub deckt fast dieselben Vorteile ab. Beispielsweise haben viele Kunden von MarkLogic Metadaten-Repositorys (oder Inhalts-Repositorys) aufgebaut, um ihre kritischen Datenbestände mit dem MarkLogic Data Hub zu virtualisieren.

Es ist jedoch möglich, einen MarkLogic Data Hub wie jede andere Datenquelle als eine Datenquelle im Verbund zu behandeln. Der MarkLogic Data Hub kann beispielsweise zur Integration von Daten aus mehreren Quellen verwendet werden. Dabei kann er als verbundene Datenquelle mit Tools wie Spark für das Training und die Bewertung von Machine-Learning-Modellen genutzt werden.

Data Lakes ergänzen Data Hubs hervorragend. Viele unserer Kunden verwenden den MarkLogic Connector for Hadoop, um Daten von Hadoop in den MarkLogic Data Hub zu verschieben oder Daten vom MarkLogic Data Hub nach Hadoop zu verschieben. Dabei sitzt das Data Hub auf dem Data Lake, wo die qualitativ hochwertigen, angereicherten, sicheren, deduplizierten, indexierten und abfragbaren Daten zugänglich sind. Bei der Verwaltung extrem großer Datenmengen bietet der MarkLogic Data Hub darüber hinaus ein automatisiertes Daten-Tiering, um Daten aus einem Data Lake sicher zu speichern und darauf zuzugreifen.

Meistens haben Kunden entweder schon einen Data Lake und sind dabei, von diesem zu migrieren, oder sie entscheiden sich dafür, wenig genutzte Daten in Hadoop auszulagern, um die Vorteile einer kostengünstigen Speicherung zu nutzen oder Machine-Learning-Projekte zu unterstützen.

Mehr erfahren

Wenn Sie über den nächsten Schritt bei der Planung Ihrer Architektur nachdenken, finden Sie hier eine Zusammenfassung der zu erwägenden Optionen:

  • Entscheiden Sie sich bei Ihrem nächsten großen Datenintegrationsprojekt für den Aufbau eines neuen Data Hub mit dem MarkLogic Data Hub Service, anstatt einen Data Lake oder eine Datenvirtualisierung zu verwenden (oder zu versuchen, einen maßgeschneiderten „Data Hub“ mit einem Bündel verschraubter Komponenten zu bauen)
  • Bauen Sie mit dem MarkLogic Data Hub Service einen Data Hub auf einem Data Lake als Integrationspunkt auf, um Daten anzureichern und zu steuern und nutzen Sie den Data Lake für die Stapelverarbeitung und Datenwissenschaft
  • Konsolidieren Sie so viele Daten wie möglich durch Integration in ein oder mehrere Data Hubs und stellen Sie diese durch Datenvirtualisierung zur Verfügung

Wir haben viele Kunden, die sich dafür entschieden haben, ihre Data Lakes oder Datenvirtualisierung mit einem MarkLogic Data Hub zu ergänzen bzw. durch es zu ersetzen. Einige Beispiele, über die Sie nachlesen können, sind Northern Trust, AFRL und Chevron.

Anmeldung zu unserer Live-Demo

Erfahren Sie, wie MarkLogic Daten schneller integriert, Kosten reduziert und einen sicheren Datenaustausch ermöglicht.

Jetzt Registrieren

Auf dieser Website werden Cookies verwendet.

Mit der Nutzung dieser Webseite stimmen Sie der Verwendung von Cookies gemäß der MarkLogic Datenschutzrichtlinie zu.