Föderiertes Lernen (Teil II): Das Scalytics Framework

Dr. Jorge Quiane

Dies ist der zweite Beitrag in unserer Federated Learning (FL) -Reihe. In unserem vorherigen Beitrag haben wir Folgendes vorgestellt FL als Ansatz für verteiltes maschinelles Lernen (ML) wobei Rohdaten von verschiedenen Arbeitern nicht aus den Arbeitern entfernt werden. Wir werfen nun einen Blick auf Databloom Blossom, ein föderiertes Data Lakehouse-Analytics-Framework, das eine Lösung für föderiertes Lernen bietet.

Die Forschungs- und Industriegemeinschaften haben bereits damit begonnen, mehrere Systeme im Bereich des föderierten Lernens bereitzustellen. TensorFlow Federated [1], Flower [2] und OpenFL [3] sind nur einige Beispiele für solche Systeme. All diese Systeme ermöglichen es Organisationen und Einzelpersonen (Benutzern), ihre ML-Aufgaben auf einfache und föderierte Weise über eine einzige Systemschnittstelle bereitzustellen.


Was ist das Problem?

Es gibt jedoch immer noch mehrere offene Probleme, die mit diesen Lösungen nicht gelöst wurden, wie z. B. die Wahrung des Datenschutzes, das Debuggen von Modellen, die Verkürzung der Trainingszeiten an der Wanduhr und die Reduzierung der trainierten Modellgröße. Alle von gleicher Bedeutung. Unter all diesen offenen Problemen ist eines von entscheidender Bedeutung: die Unterstützung durchgehender Pipelines. Derzeit müssen Benutzer über gute Kenntnisse verschiedener Big-Data-Systeme verfügen, um ihre durchgängigen Pipelines erstellen zu können. Sie müssen alles wissen, von Datenaufbereitungstechniken bis hin zu ML-Algorithmen. Darüber hinaus müssen Benutzer über gute Programmierkenntnisse verfügen, um alle Teile (Systeme) in einer einzigen durchgängigen Pipeline zusammenfügen zu können. Die FL-Einstellung verschärft das Problem nur.

Blossom Sky im Überblick

Blossom Sky ist eine Federated Data Lakehouse Analytics-Plattform, die Benutzern beim Aufbau ihrer durchgängigen föderierten Pipelines hilft. Blossom deckt das gesamte Analysespektrum in durchgängigen Pipelines ab und führt sie auf föderierte Weise aus. Insbesondere bei Blossom können sich Benutzer ausschließlich auf die Logik ihrer Anwendungen konzentrieren, anstatt sich Gedanken über das System, die Ausführung und die Bereitstellung machen zu müssen.



Blossom Sky general architecture
Allgemeine Architektur von Blossom Sky


Abbildung 1 veranschaulicht die allgemeine Architektur von Blossom. Insgesamt bietet Blossom Sky zwei einfache Benutzeroberflächen, mit denen Benutzer ihre Pipelines entwickeln können: Python (FedPy) für Datenwissenschaftler und ein grafisches Dashboard (Fedux) für Benutzer im Allgemeinen.

Mit Blossom Sky können Benutzer ihre föderierten Datenanalysen auf einfache Weise für eine schnelle Ausführung entwickeln.

Genauer gesagt spezifizieren Benutzer ihre Pipelines mithilfe einer dieser beiden Schnittstellen, und Blossom Sky wiederum führt sie auf föderierte Weise unter Verwendung eines beliebigen Cloud-Anbieters und einer beliebigen Datenverarbeitungsplattform aus.


WordCount program in Blossom Sky
WordCount-Programm in Blossom Sky


Die obige Liste zeigt die einfache WordCount-Anwendung in Blossom. Die ersten drei Zeilen ermöglichen es dem Benutzer, die Plattform für die Verwendung in Blossom zu registrieren (in unserem Beispiel Java und Spark). Die verbleibenden Codezeilen sind das eigentliche WordCount-Programm. Das Schöne an Blossom ist, dass der Benutzer nicht entscheiden muss, auf welcher Datenverarbeitungsplattform das Programm ausgeführt werden soll (Java oder Spark). Blossom entscheidet anhand der Eigenschaften des Eingabedatensatzes und der Verarbeitungsplattformen (wie der Größe des Eingabedatensatzes und der Größe des Spark-Clusters) über die tatsächliche Ausführung. Dies kann über einen KI-gestützten plattformübergreifenden Optimierer und Executor geschehen.


KI-gestützter Abfrageoptimierer

In seinem Kern finden wir Apache Wayang [4], das erste plattformübergreifende Datenverarbeitungssystem. Blossom nutzt und stattet Apache Wayang mit KI aus, um heterogene (föderierte) Datenpipelines zu vereinheitlichen und zu optimieren sowie den richtigen Cloud-Anbieter und die richtige Datenverarbeitungsplattform für den Betrieb der resultierenden föderierten Datenpipelines auszuwählen. Dadurch können Benutzer allgemeine Datenanalysen und KI auf jeder Datenverarbeitungsplattform nahtlos zusammen ausführen. Der Optimierer von Blossom bietet hauptsächlich eine Zwischendarstellung zwischen Anwendungen und Verarbeitungsplattformen, was es ihm ermöglicht, die Pipelines der Benutzer mithilfe mehrerer Verarbeitungsplattformen flexibel zusammenzustellen. Neben der Übersetzung der Benutzer-Pipelines auf die zugrunde liegenden Verarbeitungsplattformen entscheidet der Optimierer, wie eine Pipeline am besten ausgeführt werden kann, sodass die Laufzeit verbessert wird, und wie Daten von einer Verarbeitungsplattform (oder einem Cloud-Anbieter) auf eine andere verschoben werden.


Plattformübergreifender Executor

Blossom Sky verfügt außerdem über einen Cloud-nativen Executor, mit dem Benutzer ihre föderierten Datenanalysen auf jedem Cloud-Anbieter und jeder Datenverarbeitungsplattform bereitstellen können. Sie können ihren bevorzugten Cloud-Anbieter oder ihre bevorzugte Datenverarbeitungsplattform wählen oder Blossom anhand ihres Zeit- und Geldbudgets den besten Cloud-Anbieter oder die beste Datenverarbeitungsplattform auswählen lassen. In beiden Fällen stellt Blossom die föderierten Pipelines der Benutzer in ihrem Namen bereit und führt sie aus. Noch wichtiger ist, dass sich der Testamentsvollstrecker um alle Datenübertragungen kümmert, die zwischen Cloud-Anbietern und Datenverarbeitungsplattformen stattfinden müssen. Während der Optimierer entscheidet, welche Daten verschoben werden müssen, sorgt der Executor für die effiziente Übertragung der Daten zwischen verschiedenen Anbietern und Datenverarbeitungsplattformen.


Blossom, ein föderiertes Data Lakehouse Analytics-Framework

Dank seines Designs, Optimierers und Executors kann Blossom ein echtes föderiertes Data Lakehouse-Analytics-Framework bereitstellen:

  • Heterogene Datenquellen
    Es kann Daten aus (oder über) mehreren Datenquellen nahtlos verarbeiten.
  • Plattformübergreifende und hybride Cloud-Ausführung
    Es stellt automatisch jeden Unterabschnitt einer Pipeline nahtlos für den relevantesten Cloud-Anbieter und die wichtigste Verarbeitungsplattform bereit, um die Kosten zu senken und die Leistung zu verbessern.
  • Föderiertes maschinelles Lernen und KI
    Es wird mit einem eigenen Framework (einschließlich eines Parameterservers) geliefert, um Pipelines föderiert auszuführen.
  • Einfache Bedienung
    Es ermöglicht Benutzern, sich auf die Logik ihrer Anwendungen zu konzentrieren, indem sie sich darum kümmern, wie ihre Pipelines optimiert, bereitgestellt und ausgeführt werden.

Referenzen

[1] TensorFlow Föderiert: https://www.tensorflow.org/federated
[2] Blume: https://flower.dev/
[3] OpenFL: https://www.openfl.org/
[4] Apache Art: https://wayang.apache.org/

Über Scalytics

Legacy-Dateninfrastrukturen können mit der Geschwindigkeit und Komplexität moderner Initiativen der künstlichen Intelligenz nicht Schritt halten. Datensilos ersticken Innovationen, verlangsamen Erkenntnisse und schaffen Skalierbarkeitsengpässe, die das Wachstum Ihrer Organisation behindern. Scalytics Connect, das Framework für federated Learning der nächsten Generation, geht diese Herausforderungen direkt an.Erleben Sie nahtlose Integration über verschiedene Datenquellen hinweg, die echte Skalierbarkeit der KI ermöglicht und die Hindernisse beseitigt, die Ihre Compliance im Bereich maschinelles Lernen sowie Ihre Datenschutzlösungen für KI behindern. Befreien Sie sich von den Einschränkungen der Vergangenheit und beschleunigen Sie die Innovation mit Scalytics Connect, das den Weg für ein verteiltes Rechenframework ebnet, das Ihre datengestützten Strategien stärkt.

Apache Wayang: Das führende Java-basierte Federated Learning-Framework
Scalytics nutzt Apache Wayang als Basis, und wir sind stolz darauf, dieses Projekt zu fördern. Sie können das öffentliches GitHub-Repository hier einsehen. Wenn Ihnen unsere Software gefällt, zeigen Sie Ihre Wertschätzung und Unterstützung – ein Stern ⭐ würde uns viel bedeuten!

Wenn Sie professionelle Unterstützung von unserem Team von branchenführenden Experten benötigen, können Sie sich jederzeit an uns über Slack oder E-Mail wenden.
back to all articlesFollow us on Google News
Schneller zum KI-Erfolg
Kostenlose White Paper. Erfahren Sie, wie Scalytics KI und ML optimiert und Unternehmen in die Lage versetzt, schnellere KI-Erfolge zu erzielen.

Starten Sie noch heute mit Scalytics Connect

Launch your data + AI transformation.

Thank you! Our team will get in touch soon.
Oops! Something went wrong while submitting the form.