Wie Blossom Sky eine GDPR konforme und sichere Datenverarbeitung ermöglicht

Dr. Kaustubh Beedkar

Die föderierte Datenverarbeitung war ein Standardmodell für die virtuelle Integration unterschiedlicher Datenquellen, bei dem jede Quelle ein gewisses Maß an Autonomie wahrt. Während die ersten föderierten Technologien das Ergebnis von Fusionen, Übernahmen und speziellen Unternehmensanwendungen waren, hat die jüngste Nachfrage nach dezentraler Datenspeicherung und -berechnung auf Informationsmarktplätzen sowie nach geografisch verteilten Datenanalysen dazu geführt, dass föderierte Datendienste zu einer unverzichtbaren Komponente auf dem Markt für Datensysteme geworden sind.

Gleichzeitig haben die wachsenden Bedenken hinsichtlich des Datenschutzes aufgrund von Vorschriften auf der ganzen Welt dazu geführt, dass die föderierte Datenverarbeitung in den Zuständigkeitsbereich der Aufsichtsbehörden fällt.

In dieser Reihe von Blogbeiträgen werden die Herausforderungen beim Aufbau gesetzeskonformer föderierter Datenverarbeitungssysteme sowie unsere Initiativen bei Databloom erörtert, die darauf abzielen, Compliance zu einem erstklassigen Bürger in unserer Gesellschaft zu machen. Blossom Datenplattform.

Föderierte Datenverarbeitung

Die Ausführung von Analysen in einer Verbundumgebung erfordert verteilte Datenverarbeitungsfunktionen, die (1) eine einheitliche Abfrageschnittstelle für die Analyse verteilter und dezentrale Daten bereitstellen und (2) eine benutzerdefinierte Abfrage transparent in einen sogenannten Abfrageausführungsplan übersetzen und (3) Planoperatoren standortübergreifend ausführen können. Eine wichtige Komponente in der Verarbeitungspipeline ist hier der Abfrageoptimierer. In der Regel berücksichtigt ein Abfrageoptimierer verteilte Ausführungsstrategien (einschließlich der Verteilung von Abfrageoperatoren wie Join oder Aggregation auf Rechenknoten), die Kommunikationskosten zwischen den Rechenknoten und führt eine globale Eigenschaft ein, die beschreibt, wo, d. h. an welchem Standort, die Verarbeitung der einzelnen Planoperatoren stattfindet. Beispielsweise kann eine bidirektionale Verbindungsabfrage für Datenquellen in Asien, Europa und Nordamerika ausgeführt werden, indem zuerst Daten in Nordamerika und Europa und dann mit den Daten in Asien verknüpft werden.


Wachsende Datenvorschriften, eine neue Herausforderung

Wie man feststellen kann, versenden Verbundabfragen implizit Daten (d. h. Zwischenabfrageergebnisse) zwischen Rechenstandorten. Während verschiedenen Leistungsaspekten wie Bandbreite, Latenz, Kommunikationskosten und Rechenkapazitäten große Aufmerksamkeit geschenkt wurde, wurde der föderale Charakter der Datenverarbeitung in letzter Zeit durch Datenübertragungsvorschriften (oder Richtlinien) in Frage gestellt, die die Übertragung von Daten über geografische (oder institutionelle) Grenzen hinweg einschränken, oder durch andere Datenschutzregeln, die für die Übertragung von Daten zwischen bestimmten Standorten gelten können.

Data regulation world map
Weltkarte der Datenregulierung


Europäische Richtlinien regeln beispielsweise die Übertragung nur bestimmter Informationsfelder (oder Kombinationen davon), wie z. B. nicht personenbezogene Daten oder Informationen, die sich nicht auf eine Person beziehen. Ebenso können die Vorschriften in Asien die Datenübertragung einschränken. Die Nichteinhaltung solcher regulatorischer Verpflichtungen hat zu Bußgeldern in Milliardenhöhe geführt. Bei der Analyse von Verbunddaten ist es daher von entscheidender Bedeutung, die Einhaltung rechtlicher Aspekte zu berücksichtigen.

Vorschriften zur Datenübermittlung aus der Sicht der DSGVO

Derzeit gibt es in den meisten Ländern der Welt verschiedene Datenschutzgesetze — wobei die EU-Datenschutzgrundverordnung (GDPR) und der California Consumer Privacy Act (CCPA) die wichtigsten sind —, die Beschränkungen für die Speicherung, Verarbeitung und Übertragung von Daten vorschreiben.

Nehmen wir die DSGVO als Beispiel. Die Artikel 44-50 der DSGVO befassen sich ausdrücklich mit der Übertragung von Daten über nationale Grenzen hinweg. Dazu gehören zwei Artikel und ein Erwägungsgrund, in denen sich die gesetzlichen Anforderungen für die Übertragung von Daten grundlegend auf die föderierte Datenverarbeitung auswirken.

Artikel 45: Übertragungen auf der Grundlage eines Angemessenheitsbeschlusses.

Der Artikel schreibt vor, dass die Übertragung von Daten ohne besondere Genehmigung erfolgen kann, z. B. wenn an der Stelle, an der die Daten übertragen werden, ein angemessener Datenschutz besteht oder wenn die Daten keinen Vorschriften unterliegen (d. h. wenn die Daten nicht der Definition personenbezogener Daten gemäß Artikel 4 Absatz 1 entsprechen).

Artikel 46: Übertragungen unterliegen angemessenen Sicherheitsvorkehrungen.

Dieser Artikel schreibt vor, dass die Datenübermittlung (sofern Artikel 45 nicht anwendbar ist) unter „angemessenen Schutzmaßnahmen“ erfolgen kann. Auf der Grundlage der Empfehlungen des Europäischen Datenschutzausschusses (EDSA), die die Übertragungsinstrumente ergänzen, Pseudonymisierung der Daten (wie in Artikel 4 Absatz 5 definiert) wird als wirksame ergänzende Methode angesehen.

Erwägungsgrund 108: Übertragungen im Rahmen von Maßnahmen, die einen mangelnden Datenschutz ausgleichen.

Daten nach adäquaten Anonymisierung (d. h. wenn die resultierenden Daten nicht unter Artikel 4 Absatz 1 fallen und wie in Erwägungsgrund 26 beschrieben) fallen) nicht in den Geltungsbereich der DSGVO und können daher übertragen werden. Abhängig von den Daten und dem Ort, an den diese Daten übertragen werden, können die oben genannten Vorschriften in folgende Kategorien eingeteilt werden:

  1. Keine Einschränkungen bei der Übertragung: Einige Daten dürfen möglicherweise bedingungslos übertragen werden, andere nur an bestimmte Orte.
  2. Bedingte Einschränkungen bei der Übertragung: Bei einigen Daten können nur abgeleitete Informationen (z. B. Aggregate) oder erst nach Anonymisierung an (bestimmte) Orte übertragen werden.
  3. Vollständiges Transferverbot: Einige Daten, egal welcher Art, dürfen nicht nach außen übertragen werden.

Compliance-by-Design: Die Herausforderungen


The challenges in multi-data-store data processing
Die Herausforderungen bei der Datenverarbeitung mit mehreren Datenspeichern

Anstatt Ad-hoc-Lösungen zur Einhaltung gesetzlicher Vorschriften für die Datenverarbeitung, ein ganzheitlicherer Ansatz, der angemessene Schutzmaßnahmen bietet für die Datenverarbeitung Verantwortliche (Stellen, die kontrollieren, welche Daten und wie Daten verarbeitet werden sollen) und Datenverarbeiter (Unternehmen, die Daten im Auftrag eines für die Verarbeitung Verantwortlichen verarbeiten) innerhalb eines föderierten Datenverarbeitungssystems ist erforderlich.

Im Zusammenhang mit der föderierten Datenverarbeitung müssen drei Aspekte überprüft werden:

  1. In erster Linie müssen Datenverarbeitungssysteme Folgendes bieten Spezifikationssprachen für deklarative Richtlinien, die es für die Verarbeitung Verantwortlichen einfach und unkompliziert machen, Datenvorschriften festzulegen. In den Sprachen, in denen Richtlinien festgelegt werden, sollten die Art der Daten, ihre Verarbeitung sowie der Ort der Verarbeitung berücksichtigt werden. Vorschriften können die Verarbeitung eines gesamten Datensatzes, einer Teilmenge davon oder sogar der daraus abgeleiteten Informationen betreffen. Politische Vorgaben müssen ebenfalls berücksichtigt werden, wobei die Heterogenität der Datenformate (z. B. grafische, relationale oder textuelle Daten) zu berücksichtigen ist.
  2. Der zweite Aspekt, der sicherstellt, dass die Einhaltung der Vorschriften im Mittelpunkt der föderierten Datenverarbeitung steht, ist die Integration rechtlicher Aspekte bei der Neufassung und Optimierung von Abfragen. Ein System muss in der Lage sein, Benutzeranfragen transparent zu übersetzen in konforme Ausführungspläne.
  3. Schließlich müssen föderierte Systeme folgende Funktionen bieten: Dezentralisieren Sie die Abfrageausführung, was auch im konformen Plan gewünscht sein kann. Wir benötigen Abfrageausführer, die Abfragen über verschiedene Plattformen in mehreren Clouds oder Datensilos effizient orchestrieren können.

Fazit

Heute ist die gesetzeskonforme Datenverarbeitung eine große Herausforderung, die von Aufsichtsbehörden auf der ganzen Welt vorangetrieben wird. In diesem Blogbeitrag haben wir die Vorschriften zur Datenübermittlung aus der Sicht der DSGVO analysiert und die wichtigsten Forschungsherausforderungen im Zusammenhang mit der Einbeziehung von Compliance-Aspekten in die föderierte Datenverarbeitung erörtert. Compliance ist das Herzstück unserer Blossom Datenplattform. Im nächsten Blogbeitrag werden wir erörtern, wie die Blossom Datenplattform von Databloom einige der oben genannten Herausforderungen bewältigt und die gesetzeskonforme Datenverarbeitung über mehrere Clouds, geografische Standorte und Datenplattformen hinweg gewährleistet.

Referenzen

[1] Kaustubh Beedkar, Jorge-Arnulfo Quiané-Ruiz, Volker Markl: Konforme geoverteilte Abfrageverarbeitung. SIGMOD-Konferenz 2021:181-193
[2] Kaustubh Beedkar, David Brekardin, Jorge-Arnulfo Quiané-Ruiz, Volker Markl: Konforme geoverteilte Datenverarbeitung in Aktion. Proc. VLDB Stiftung 14 (12): 2843-2846 (2021)
[3] Kaustubh Beedkar, Jorge-Arnulfo Quiané-Ruiz, Volker Markl: Steuerung der Einhaltung von Datenübertragungen in der föderierten Datenverarbeitung. IEEE Data Eng. Bull. 45 (1): 50-61 (2022)

Über Scalytics

Legacy-Dateninfrastrukturen können mit der Geschwindigkeit und Komplexität moderner Initiativen der künstlichen Intelligenz nicht Schritt halten. Datensilos ersticken Innovationen, verlangsamen Erkenntnisse und schaffen Skalierbarkeitsengpässe, die das Wachstum Ihrer Organisation behindern. Scalytics Connect, das Framework für federated Learning der nächsten Generation, geht diese Herausforderungen direkt an.Erleben Sie nahtlose Integration über verschiedene Datenquellen hinweg, die echte Skalierbarkeit der KI ermöglicht und die Hindernisse beseitigt, die Ihre Compliance im Bereich maschinelles Lernen sowie Ihre Datenschutzlösungen für KI behindern. Befreien Sie sich von den Einschränkungen der Vergangenheit und beschleunigen Sie die Innovation mit Scalytics Connect, das den Weg für ein verteiltes Rechenframework ebnet, das Ihre datengestützten Strategien stärkt.

Apache Wayang: Das führende Java-basierte Federated Learning-Framework
Scalytics nutzt Apache Wayang als Basis, und wir sind stolz darauf, dieses Projekt zu fördern. Sie können das öffentliches GitHub-Repository hier einsehen. Wenn Ihnen unsere Software gefällt, zeigen Sie Ihre Wertschätzung und Unterstützung – ein Stern ⭐ würde uns viel bedeuten!

Wenn Sie professionelle Unterstützung von unserem Team von branchenführenden Experten benötigen, können Sie sich jederzeit an uns über Slack oder E-Mail wenden.
back to all articlesFollow us on Google News
Schneller zum KI-Erfolg
Kostenlose White Paper. Erfahren Sie, wie Scalytics KI und ML optimiert und Unternehmen in die Lage versetzt, schnellere KI-Erfolge zu erzielen.

Starten Sie noch heute mit Scalytics Connect

Launch your data + AI transformation.

Thank you! Our team will get in touch soon.
Oops! Something went wrong while submitting the form.