Zusammenfassung: In diesem Blogbeitrag beantworten wir wichtige Fragen zu den Datenverarbeitungsfunktionen von Blossom Sky, zur DSGVO-Konformität, zur Delegierung des Datenzugriffs und zur Leistungsoptimierung. Erfahren Sie, wie Blossom Sky komplexe Datenszenarien vereinfachen und Ihr Unternehmen durch effektives Datenmanagement und KI-Einsatz unterstützen kann. Erkunden Sie die Herausforderungen der Datenregulierung in der heutigen KI-gesteuerten Welt und wie Blossom Sky die Probleme verteilter Datensilos löst und verschiedene, inkompatible Datentechnologien vereinheitlicht.
Wie löst Blossom Sky die Herausforderungen der Datenregulierung?
Wir werden oft gefragt, wie wir die zunehmenden Herausforderungen der Datenregulierung angehen, insbesondere in einer Zeit, in der KI immer mehr an Bedeutung gewinnt und Daten über verschiedene Silos und Technologien verstreut sind, wodurch das Datenmanagement immer komplexer wird. Fragen wie diese:
Wir haben US-Kundendaten in einer Spark-Cloud in NYC und EU-Kundendaten in einem SQL Data Warehouse vor Ort in Frankfurt. Die Anforderung besteht darin, die Gebühren für verspätete Zahlungen zu ermitteln, die nach Größe und Land des Kundenkontos berechnet werden. Wie verarbeitet Blossom Daten, um eine Übersichtstabelle zu erstellen und gleichzeitig die DSGVO-Konformität einzuhalten?
Blossom Sky bietet über seine Datenverbundtechnologie von Natur aus Datenkonformität (GDPR, HIPAA, CCPA usw.). Bei Blossom Sky schreibt der Dateningenieur einen einzelnen Wayang-Job, der aus den für die Abfrage erforderlichen Auswahl-, Projektions- und Aggregationsanweisungen besteht. Dieser Job deklariert einfach den Pfad zu den beiden verschiedenen Quellen in einer Konfigurationsdatei. Dann erstellt Blossom Sky zwei unabhängige Wayang-Jobs und versendet sie an die beiden Standorte. Jede Plattform, d. h. der Spark-Cluster in NYC und das SQL Data Warehouse in Frankfurt, führt die Abfrage getrennt voneinander aus.
Es gibt drei Möglichkeiten, die Ergebnisse zusammenzuführen und die Übersichtstabelle zu generieren. Alle sind datenschutzkonform. Verwenden Sie die beste Methode, die zu Ihrem Anwendungsfall passt.
Methode 1 — Remote Data Federation
Wenn Blossom Sky föderierte Datenoperationen für mehrere Datenquellen gleichzeitig ausführt, können die Zwischenergebnisse dieser Operationen an den Standort gesendet werden, an dem Blossom Sky gerade ausgeführt wird. Bei diesem Standort könnte es sich beispielsweise um das zentrale Datenteam in den USA oder Deutschland handeln. An diesem Standort kombiniert und integriert Blossom Sky diese Zwischenergebnisse mithilfe der Datenverarbeitungsfunktionen von Apache Wayang in einer Übersichtstabelle. Im Wesentlichen bedeutet dies, dass Blossom Sky Daten aus verschiedenen Quellen verarbeitet, die berechneten Zwischenergebnisse an einen zentralen Ort bringt und sie dann zu einer konsolidierten Übersichtstabelle zusammenführt.
Methode 2 — Lokaler Datenverbund
Blossom Sky unterstützt auch den standortbasierten Datenverbund. Die aggregierten Zwischenergebnisse, die in New York City (NYC) generiert wurden, werden an den anderen Standort, Frankfurt, übertragen. In Frankfurt werden diese Ergebnisse kombiniert oder zusammengeführt. Dieser Prozess beinhaltet die Integration der Zwischendaten aus NYC mit anderen in Frankfurt vorhandenen Daten, was zu einem konsolidierten Datensatz oder Ergebnis führt. Einfacher ausgedrückt bedeutet dies, dass die berechneten Zwischenergebnisse aus NYC nach Frankfurt gesendet werden, wo sie mit anderen Daten kombiniert werden, um einen zusammengeführten Datensatz zu erstellen. Diese Methode impliziert, dass die zusammengeführten Daten in Frankfurt weiterverarbeitet werden, was vollständig DSGVO-konform ist.
Oder die aggregierten Zwischenergebnisse, die in Frankfurt verarbeitet wurden, werden zur Zusammenführung nach New York City (NYC) geschickt. Das bedeutet, dass die in Frankfurt berechneten Daten nach NYC übertragen werden, wo sie zu einer einzigen Übersichtstabelle zusammengefasst werden. Dieser Ansatz ermöglicht eine Datenkonsolidierung, ohne dass die Rohdaten ihren ursprünglichen Standort verlassen müssen, wodurch Datenschutz und Compliance gewährleistet werden. Dies bedeutet, dass die Zwischenergebnisse in New York weiterverarbeitet werden, um schließlich ein ganzheitliches Bild der Marktbedingungen in bestimmten Wirtschaftsbereichen zu erhalten.
In allen Szenarien legt Blossom Sky Wert auf Datensicherheit und Datenschutz, indem es sicherstellt, dass die Rohdaten an ihrem ursprünglichen Standort verbleiben und strenge Compliance-Vorschriften eingehalten werden. Im Gegensatz zu anderen Lösungen erfordert Blossom Sky nicht den Einsatz von Ausführungsmodulen von Drittanbietern in den Datenpools, was den Datenverwaltungsprozess vereinfacht. Mit den fortschrittlichen Funktionen von Blossom Sky haben Unternehmen die Flexibilität, den Ansatz zu wählen, der ihren spezifischen Bedürfnissen entspricht. Ganz gleich, ob sie sich für die Datenaggregation auf der Plattform entscheiden, auf der Blossom Sky arbeitet, auf der Quellplattform oder ob sie sogar den KI-Optimierer von Blossom die Entscheidung treffen lassen, Blossom Sky ermöglicht es Benutzern, mühelos durch komplexe Datenszenarien zu navigieren und gleichzeitig die höchsten Datensicherheitsstandards einzuhalten.
Wie gewährleistet Blossom Sky Datenzugriffskontrollen?
Wir haben ein Szenario, in dem wir sicherstellen müssen, dass nur bestimmte Teammitglieder Zugriff auf sensible Finanzdaten haben, während andere eingeschränkt werden sollten. Wie geht Blossom Sky mit solch strengen Anforderungen an die Datenzugriffskontrolle um?
Eine der am häufigsten gestellten Fragen ist, wie Blossom Sky strenge Datenzugriffskontrollen gewährleistet. Unsere Plattform arbeitet nach dem Prinzip der engen Zugriffsdelegierung, bei der jeder Benutzer Zugriff auf bestimmte Datentabellen erhält, was dem in Ihrem Unternehmen verfügbaren Kontrollniveau entspricht. Wir benötigen nur für unser Studio, Blossom Studio, eine Benutzerauthentifizierung, sodass Benutzer Arbeitsgruppen erstellen und den Zugriff effizient verwalten können. Dieser Ansatz stellt sicher, dass der Datenzugriff sicher und kontrolliert bleibt, wodurch das Risiko von unbefugtem Zugriff und Sicherheitsverletzungen minimiert wird und gleichzeitig eine intuitive und optimierte Benutzererfahrung gewährleistet wird. In der Praxis bedeutet dies, dass der Benutzer, der einen Verbundjob ausführt, Zugriff auf die Datenquellen haben muss, die in seiner Abfrage enthalten sind. Dieser Prozess wird in der Regel unternehmensintern verwaltet.
Haben wir mit Blossom eine ganzheitliche Ansicht aller Datensätze oder benötigen wir eine Ebene vom Typ Master Data Management (MDM)?
Blossom Sky bietet die Möglichkeit, eine Verbindung mit mehreren Datenpools und Plattformen herzustellen, sodass keine separate Master Data Management (MDM) -Ebene nur für Blossom Sky implementiert werden muss. Unsere Plattform lässt sich nahtlos in bestehende Datenmanagementsysteme integrieren und dient als vielseitige und konforme Lösung für die Ausführung von Datenpipelines, die Rationalisierung des Datenbetriebs und die Sicherstellung der Datenkonsistenz im gesamten Unternehmen.
Wie verbessert der KI-Optimierer von Blossom Sky die Effizienz der Datenverarbeitung?
Wir hatten Leistungs- und Zuverlässigkeitsprobleme mit unseren Spark- und SQL-Instances. Wie geht der KI-Optimierer von Blossom Sky mit diesen Herausforderungen um, und können Sie uns einen konkreten Fall nennen, in dem er die Effizienz der Datenverarbeitung in einem Unternehmen mit ähnlichen Problemen verbessert hat?
In Szenarien, in denen Benutzer versehentlich suboptimale Entscheidungen treffen, löst Blossom Sky Leistungsprobleme, indem es seinen KI-Optimierer nutzt. Wenn der Zusammenführungsvorgang beispielsweise im obigen Beispiel viele Zwischenergebnisse enthält, kann dies an einem dritten Ort und die Verwendung der Java-Plattform als Plugin zu sehr langen Verarbeitungszeiten oder sogar Speicherausnahmen führen. Blossom Sky verfügt über einen KI-Optimierer, um die besten Entscheidungen darüber zu treffen, wo Operationen stattfinden sollen, wobei entweder die Laufzeit und/oder die damit verbundenen monetären Kosten berücksichtigt werden. Unten sehen wir ein Beispiel für eine Klassifizierungsaufgabe, bei der der Optimierer von Blossom sich für einen Plan entschied, der die einzelnen Java- und Spark-Plugins um mehr als eine Größenordnung übertrifft.
Wie viel Aufwand ist erforderlich, um mit Blossom Sky zu beginnen?
Welche Programmieroptionen sind mit Blossom Sky verfügbar und wie benutzerfreundlich ist die Plattform für unser Datenteam, insbesondere wenn es Erfahrung mit Tools wie Apache Spark hat?
Blossom unterstützt Standard-SQL, was das Schreiben analytischer Pipelines erleichtert. Darüber hinaus enthält es drei programmatische APIs: eine Java-Scala-ähnliche API, eine Scala-API und eine SQL-API. Eine Python-API ist ebenfalls auf dem Weg! Das Schreiben von Pipelines von Grund auf erfordert eine kleine Lernkurve, aber nicht für diejenigen, die mit Big-Data-Plattformen wie Apache Spark vertraut sind. Blossom Sky wird auch mit Blossom Studio geliefert, in dem Benutzer Operatoren per Drag-and-Drop ziehen können, um ihre Pipelines mit geringem Codeaufwand zu erstellen.
Über Scalytics
Apache Wayang: Das führende Java-basierte Federated Learning-Framework
Scalytics nutzt Apache Wayang als Basis, und wir sind stolz darauf, dieses Projekt zu fördern. Sie können das öffentliches GitHub-Repository hier einsehen. Wenn Ihnen unsere Software gefällt, zeigen Sie Ihre Wertschätzung und Unterstützung – ein Stern ⭐ würde uns viel bedeuten!
Wenn Sie professionelle Unterstützung von unserem Team von branchenführenden Experten benötigen, können Sie sich jederzeit an uns über Slack oder E-Mail wenden.