Alle großen Organisationen verfügen über riesige Datenmengen, die in der Regel auf viele verschiedene Systeme verteilt sind. Dies war keine bewusste Entscheidung, sondern eher eine Aneinanderreihung pragmatischer Kompromisse. Silos sind technische Schulden und sie nehmen seit der Einführung von Software-as-a-Service-Anwendungen (SaaS) und anderen Cloud-Angeboten zu, was zur mehr Reibung zwischen Unternehmen und IT führt. Die Integration dieser Datensilos ist bekanntermaßen schwierig, und es gibt klare Herausforderungen, wenn man versucht, einen traditionellen Data-Warehouse-Ansatz zu verwenden. Aus diesem Grund haben IT-Organisationen nach modernen Ansätzen gesucht, um die Arbeit zu erledigen (auf dringenden Wunsch des Unternehmens).
Dieser Vergleich deckt drei moderne Ansätze der Datenintegration ab: Data Lakes, Datenvirtualisierung oder -federation und Data Hubs. Alle drei Ansätze vereinfachen den Self-Service-Verbrauch von Daten aus heterogenen Quellen, ohne bestehende Anwendungen zu stören. Allerdings gibt es bei jedem dieser neuen Ansätze Kompromisse. Außerdem schließen sich die Ansätze nicht gegenseitig aus – viele Organisationen nutzen ihren Data Lake weiterhin neben einer auf einem Data Hub zentrierten Architektur.
MarkLogic Data Hub | Data Lake | Datenvirtualisierung | |
---|---|---|---|
Datenaufnahme |
|
|
|
Datenmodell |
|
|
|
Suchen & Abfragen |
|
|
|
Betriebsfähigkeiten |
|
|
|
Pflege
(Harmonisierung, Anreicherung, Mastering) |
|
|
|
Sicherheit |
|
|
|
Skalierbarkeit |
|
|
|
Leistung |
|
|
|
Implementierung |
|
|
|
Ein Data Lake ist ein zentrales Repository, das Datenspeicherung in jeder Größenordnung und Struktur ermöglicht. Sie wurden mit dem Aufkommen von Hadoop beliebt, einem verteilten Dateisystem, mit dem sehr einfach war, Rohdaten in ein zentrales Repository zu verschieben, wo sie zu geringen Kosten gespeichert werden konnten. In Data Lakes sind die Daten möglicherweise nicht gepflegt (angereichert, gemastert, harmonisiert) oder durchsuchbar und normalerweise werden andere Tools aus dem Hadoop-Ökosystem benötigt, um die Daten in einem mehrstufigen Prozess zu analysieren oder zu operationalisieren. Jedoch haben Data Lakes den Vorteil, dass für das Laden von Daten nicht viel Arbeit am Front-End erforderlich ist.
Zu den Use Cases von Data Lakes gehören: Einsatz als Analyse-Sandkasten, Training von Machine-Learning-Modellen, Füttern von Vorbereitungs-Pipelines für Daten oder einfach eine kostengünstige Datenspeicherung anzubieten.
Vor einigen Jahren wurde die Hadoop-Landschaft von drei Hauptakteuren umkämpft: Cloudera, Hortonworks und MapR. Heute ist nur noch Cloudera nach der Fusion mit Hortonworks und dem Notverkauf von MapR übrig geblieben.
Für viele Organisationen sind Objektspeicher wie Amazon S3 de facto zu Data Lakes geworden und unterstützen den Übergang von einer On-premis-Hadoop-Landschaft in die Cloud.
Neben dem Hadoop-Kern gibt es im Apache-Ökosystem noch viele andere verwandte Tools. Beispielsweise sind Spark und Kafka zwei beliebte Tools zur Verarbeitung von Streaming-Daten und zur Durchführung von Analysen in einer ereignisbasierten Streaming-Architektur (sie werden von Databricks bzw. Confluent vermarktet).
Ein detaillierter Bericht über diese Instrumente übersteigt den Umfang dieses Vergleichs. Aber im Allgemeinen ergänzen diese Tools in den meisten Use Cases einen Data Hub-Ansatz. Sie verwalten Streaming-Daten, benötigen aber immer noch eine Datenbank. Beispielsweise gibt es bei Kafka kein Datenmodell, Indizes oder eine Möglichkeit, Daten abzufragen. Als Faustregel gilt, dass eine ereignisbasierte Architektur und Analyse-Plattform mit einem darunter liegenden Data Hub vertrauenswürdiger und funktionsfähiger ist als ohne Data Hub.
Bei der Datenvirtualisierung werden virtuelle Ansichten von den in bestehenden Datenbanken gespeicherten Daten erstellt. Die physischen Daten bewegen sich nicht, aber Sie können immer noch eine integrierte Ansicht der Daten in der neuen virtuellen Datenebene erhalten. Dies wird oft Datenverbund genannt (oder virtuelle Datenbank), da die zugrunde liegenden Datenbanken ein Verbund sind.
Sie haben zum Beispiel einige Oracle- und SAP-Datenbanken laufen und eine Abteilung benötigt Zugriff auf die Daten aus diesen Systemen. Anstatt die Daten über ETL physisch zu verschieben und in einer anderen Datenbank zu behalten, können Architekten die Daten für dieses spezielle Team oder diesen speziellen Use Case virtuell (und schnell) abrufen und integrieren.
Bei der Datenvirtualisierung treffen die Abfragen auf die zugrunde liegende Datenbank. Neuere Virtualisierungstechnologien haben die Planung und Optimierung der Abfragen immer weiter entwickelt. Sie können im Speicher zwischengespeicherte Daten oder die integrierte Massivparallelverarbeitung (MPP) verwenden. Die Ergebnisse werden dann verknüpft und abgebildet, um eine zusammengesetzte Ansicht der Ergebnisse zu erstellen. Viele neuere Datenvirtualisierungstechnologien können auch Daten schreiben (nicht nur lesen). Neuere Lösungen zeigen auch Fortschritte bei der Data Governance, der Maskierung von Daten für verschiedene Rollen und Use Cases und der Verwendung von LDAP zur Authentifizierung.
Einer der Hauptvorteile der Datenvirtualisierung ist die schnellere Amortisierung. Es fallen weniger Arbeit und Kosten zur Einrichtung der Datenabfrage an, da die Daten nicht physisch bewegt werden, wodurch sie Ihre bestehende Infrastruktur weniger stören.
Ein weiterer großer Vorteil der Datenvirtualisierung besteht darin, dass Anwender SQL-Abfragen ad-hoc sowohl auf unstrukturierten als auch auf strukturierten Datenquellen ausführen können - ein Haupt-Use-Case der Datenvirtualisierung.
Beispiele für Unternehmen, die eigenständige Lösungen zur Datenvirtualisierung anbieten, sind SAS, Tibco, Denodo und Cambridge Semantics. Andere Anbieter wie Oracle, Microsoft, SAP und Informatica betten die Datenvirtualisierung als Merkmal in ihre Vorzeigeprodukte ein.
Data Hubs sind Datenspeicher, die als Integrationspunkt in einer Hub-and-Spoke-Architektur fungieren. Sie bewegen multistrukturierte Daten physisch und integrieren und speichern sie in der zugrunde liegenden Datenbank.
Aufgrund dieser Vorteile ist ein Data Hub eine tolle Ergänzung zu Data Lakes und Datenvirtualisierung, weil er eine kontrollierte, transaktionale Datenebene bereitstellt. Darauf gehen wir weiter unten ausführlicher ein.
Hier sind einige der Anzeichen, die darauf hinweisen, dass ein Data Hub eine gute Wahl für Ihre Architektur ist:
Unsere Kunden nutzen die MarkLogic Data Hub Platform in der Regel für Use Cases wie die Erstellung einer einheitlichen Ansicht, Betriebsanalysen, Monetarisierung von Inhalten, Forschung und Entwicklung, industrielle IoT, Einhaltung gesetzlicher Vorschriften, ERP-Integration und Mainframe-Migrationen.
Data Lakes sind Profis für das Streaming von Daten. Sie dienen auch als gute Repositorys, wenn Organisationen eine kostengünstige Option für die Speicherung massiver Datenmengen, strukturiert oder unstrukturiert, benötigen. Die meisten Data Lakes sind HDFS-gestützt und lassen sich leicht in das breitere Hadoop-Ökosystem einbinden. Das macht sie zu einer guten Wahl für große Entwicklungsteams, die Open-Source-Tools verwenden wollen und eine kostengünstige Analyse-Sandbox suchen. Viele Organisationen verlassen sich auf ihren Data Lake als ihre „datenwissenschaftliche Werkbank“, um Machine-Learning-Projekte voranzutreiben, bei denen Datenwissenschaftler Trainingsdaten speichern und Jupyter, Spark oder andere Tools füttern müssen.
Datenvirtualisierung ist die beste Option für bestimmte Analytik-Use-Cases, bei denen es nicht zu sehr auf die Robustheit eines Data Hub ankommt, um Daten zu integrieren. Sie können schnell eingesetzt werden, und da die physischen Daten nie bewegt werden, erfordert die Bereitstellung der Infrastruktur zu Beginn eines Projekts nicht viel Arbeit. Datenteams wenden Datenvirtualisierung auch häufig an, um SQL-Abfragen auf nicht relationalen Datenquellen ad-hoc durchzuführen.
Data Hubs und Datenvirtualisierung sind zwei verschiedene Ansätze zur Datenintegration und können sich bei gleichem Use Case messen. Wir stellen fest, dass Kunden, die einen Data Hub verwenden, in der Regel keine Datenvirtualisierung implementieren müssen. Ein Data Hub deckt fast dieselben Vorteile ab. Beispielsweise haben viele Kunden von MarkLogic Metadaten-Repositorys (oder Inhalts-Repositorys) aufgebaut, um ihre kritischen Datenbestände mit dem MarkLogic Data Hub zu virtualisieren.
Es ist jedoch möglich, einen MarkLogic Data Hub wie jede andere Datenquelle als eine Datenquelle im Verbund zu behandeln. Der MarkLogic Data Hub kann beispielsweise zur Integration von Daten aus mehreren Quellen verwendet werden. Dabei kann er als verbundene Datenquelle mit Tools wie Spark für das Training und die Bewertung von Machine-Learning-Modellen genutzt werden.
Data Lakes ergänzen Data Hubs hervorragend. Viele unserer Kunden verwenden den MarkLogic Connector for Hadoop, um Daten von Hadoop in den MarkLogic Data Hub zu verschieben oder Daten vom MarkLogic Data Hub nach Hadoop zu verschieben. Dabei sitzt das Data Hub auf dem Data Lake, wo die qualitativ hochwertigen, angereicherten, sicheren, deduplizierten, indexierten und abfragbaren Daten zugänglich sind. Bei der Verwaltung extrem großer Datenmengen bietet der MarkLogic Data Hub darüber hinaus ein automatisiertes Daten-Tiering, um Daten aus einem Data Lake sicher zu speichern und darauf zuzugreifen.
Meistens haben Kunden entweder schon einen Data Lake und sind dabei, von diesem zu migrieren, oder sie entscheiden sich dafür, wenig genutzte Daten in Hadoop auszulagern, um die Vorteile einer kostengünstigen Speicherung zu nutzen oder Machine-Learning-Projekte zu unterstützen.
Wenn Sie über den nächsten Schritt bei der Planung Ihrer Architektur nachdenken, finden Sie hier eine Zusammenfassung der zu erwägenden Optionen:
Wir haben viele Kunden, die sich dafür entschieden haben, ihre Data Lakes oder Datenvirtualisierung mit einem MarkLogic Data Hub zu ergänzen bzw. durch es zu ersetzen. Einige Beispiele, über die Sie nachlesen können, sind Northern Trust, AFRL und Chevron.
Mit der Nutzung dieser Webseite stimmen Sie der Verwendung von Cookies gemäß der MarkLogic Datenschutzrichtlinie zu.