MarkLogic World 2020 Live Keynote – Register Now

Maschinelles Lernen unterstützt MarkLogic beim Lösen komplexer Datenprobleme. Die neue, eingebettete Funktion für maschinelles Lernen bildet dabei den Kern von MarkLogic-Anwendungen.

Mit MarkLogic Embedded Machine Learning erzielen Sie die besten Ergebnisse, da Ihre Modelle für maschinelles Lernen direkten Zugriff auf hochwertige, kuratierte und verwaltete Daten haben. Sie sind kein Data Scientist? Kein Problem. Wir nutzen diese Funktion auch, um die Abläufe von MarkLogic und die Kuratierung von Daten zu verbessern. Für Benutzer des MarkLogic Data Hub ist sie jedoch absolut transparent.

Was ist maschinelles Lernen?

Maschinelles Lernen kann als Art Mustererkennung in Daten betrachtet werden. Die Herausforderung besteht jedoch in umfangreichen, komplexen Daten. Diese machen eine Erkennung der Beziehungen zwischen Attributen in den Daten ohne fortschrittliche Tools schwierig. Ein maschinelles Lernmodell ist eine mathematische Darstellung von Beziehungen. Damit können Sie:

  • Treffen Sie Vorhersagen zu einem künftigen Status basierend darauf, wie sich diese Funktionen ändern könnten. Beispielsweise entwickelt eine Person aufgrund nicht offensichtlicher Änderungen ihres Lebensstils oder einer Erkrankung ein hohes Risiko für eine Krankheit.
  • Neue Daten basierend auf historischen Mustern klassifizieren. Ein neuer Kunde hat beispielsweise Attribute, die aus textbasierten Gesundheitsakten extrahiert wurden und ihn einer bestimmten Kategorie zuordnen.

Maschinelles Lernen bietet vor allem ein Maß an Genauigkeit bezüglich Daten und Erkenntnissen, das bisher so nicht möglich war.

Herausforderungen des maschinellen Lernens

Mangel an Qualität und Governance – Sie benötigen eine ordnungsgemäße Governance, um nicht nur im Hinblick auf maschinelles Lernen auf Ihren Daten vertrauen zu können, sondern auch um das Vertrauen in die Ergebnisse von maschinellem Lernen zu fördern. Sie müssen in der Lage sein, folgende Fragen zu beantworten: Welche Daten sollten verwendet werden? Woher kommen die Daten und was wurde mit ihnen gemacht? Enthalten sie personenbezogene Informationen? Sind es die gleichen Daten, die beim letzten Mal verwendet wurden? Gute Daten sind von entscheidender Bedeutung, da maschinelles Lernen noch empfindlicher auf die Datenqualität reagieren kann. Schließlich nutzen Sie dieselben Daten zum Trainieren und dann zum Ausführen des Modells. Dadurch werden Probleme bezüglich der Datenqualität noch verstärkt.

Wild-West-Ökosystem – Das Ökosystem für maschinelles Lernen und KI-Tools ist unglaublich komplex. Da Sicherheit und Governance zunehmend an Priorität gewinnen, ist es schwierig, Mitarbeiter mit den nötigen Kenntnissen rund um Aufbau und Pflege derartiger Systeme zu finden. Laut einem Artikel der New York Times verbringen Data Scientists 80 % ihrer Zeit damit, sich mit Daten auseinanderzusetzen.

Niedriger ROI für Unternehmen – Oftmals vertrauen Unternehmen nicht den „Black Box“-Ausgaben von Modellen für maschinelles Lernen, selbst wenn sie korrekt sind. In den meisten Unternehmen ähneln KI-Investitionen eher wissenschaftlichen Projekten als der Kerninfrastruktur, da sie die Ergebnisse maschineller Lernmodelle nicht verstehen oder ihnen nicht vertrauen, um basierend darauf Entscheidungen zu treffen. Außerdem sind Data Scientists und die benötige Hardware-Infrastruktur nicht gerade billig. Hohe Kosten und schlechte Ergebnisse sind mit einem insgesamt niedrigen ROI gleichzusetzen.

Die MarkLogic Lösung

Wir glauben, dass der beste Ort für maschinelles Lernen ein Data Hub ist, in dem Daten geschützt, verwaltet und kuratiert werden können. Deshalb bildet MarkLogic Embedded Machine Learning den Kern von MarkLogic. In einem MarkLogic-Cluster können Routinen für maschinelles Lernen in einer sicheren Umgebung parallel und datennah ausgeführt werden.

Vorteile

Verbesserung der Datenbankfunktion


Mit Embedded Machine Learning führt MarkLogic Abfragen effizienter aus und skaliert sie basierend auf Workload-Mustern autonom. Mit autonomer Elastizität kann MarkLogic Rebalancing-Regeln für Daten und Indizes beispielsweise anhand von Modellen von Infrastruktur-Workload-Mustern automatisch anpassen.

Bessere Datenpflege


Embedded Machine Learning reduziert die Komplexität und erhöht die Automatisierung verschiedener Schritte in der Datenpflege. Beispiel: Mit der Smart Mastering-Funktion von MarkLogic wird regelbasiertes Mastering durch maschinelles Lernen verbessert. So werden Datensätze mit größerer Genauigkeit gemastert. Zudem werden die Modelle weiter optimiert, je mehr Daten verarbeitet werden – und all dies mit weniger manuellem Aufwand.

Verbesserung von Data-Science-Workflows


Für Data Scientists ist es jetzt einfacher, Modelle direkt in MarkLogic zu trainieren und auszuführen, da wir dort nahezu jeden Teil der Architektur und der Prozesse abwickeln können. Dies umfasst die Datenverarbeitung/-kuratierung und das Modell-Engineering zum Erstellen, Trainieren, Ausführen und Bereitstellen des Modells.

So funktioniert's

Embedded Machine Learning von MarkLogic ist ein umfassendes Deep Learning-Toolkit und als Laufzeitbibliothek im Datenbankkern von MarkLogic installiert. Die Funktionen werden über JavaScript und XQuery integriert, sodass sie datennah ausgeführt werden und vollständig eingebunden sind.

Embedded Machine Learning wurde nicht nur für CPUs, sondern auch für GPUs entwickelt und lässt sich auf Systeme mit mehreren Computern und mehreren GPUs skalieren. Darüber hinaus wurde eine Komprimierungstechnik entwickelt, die die Kommunikationskosten deutlich reduziert, die Kommunikation zwischen Knoten verringert und ein hochgradig skalierbares paralleles Training auf mehreren Computern ermöglicht.

Ferner unterstützt Embedded Machine Learning das ONNX-Format (Open Neural Network Exchange). Diese gemeinsam genutzte Open-Source-Modelldarstellung ermöglicht Framework-Interoperabilität und gemeinsame Optimierung. Mit ONNX können Entwickler Modelle zwischen gängigen Frameworks wie CNTK, MXNet, PyTorch etc. verschieben.

Das Toolkit, mithilfe dessen MarkLogic Embedded Machine Learning entwickelt wurde, wurde ursprünglich von Microsoft in Zusammenarbeit mit Facebook und AWS entwickelt und unter dem Namen Cognitive Toolkit (CNTK) veröffentlicht. Microsoft nutzte CNTK zur Entwicklung von Keystone-Produkten wie Skype, HoloLens, Cortana und Bing.

Architektur

Client-Server-Schnittstelle

Die beste Datenbank für maschinelles Lernen und KI

Sehen Sie sich einen Vortrag an, in dem die neuen Algorithmen für maschinelles Lernen und die GPU-Beschleunigungsfunktionen von MarkLogic vorgestellt werden. Erfahren Sie mehr über die Kuratierung von Daten, und informieren Sie sich umfassend über die Einbindung von maschinellem Lernen in einem Unternehmen.

Weitere Ressourcen

Dokumentation
Sehen Sie sich unsere Dokumente zu maschinellem Lernen an

Mehr erfahren

Blogbeitrag
Lesen Sie unsere Ankündigung zu maschinellem Lernen

Mehr erfahren

Webinar
Sehen Sie sich unser Webinar mit einer Demo zu Embedded Machine Learning an.

Mehr erfahren

Funktionen speziell für Unternehmen

Auf dieser Website werden Cookies verwendet.

Mit der Nutzung dieser Webseite stimmen Sie der Verwendung von Cookies gemäß der MarkLogic Datenschutzrichtlinie zu.