Willkommen zu unserem neuesten Blogbeitrag, in dem wir uns freuen, Ihnen eine leistungsstarke neue Ergänzung zu Scalytics Connect vorstellen zu können: Multikontext. In diesem Beitrag zeigen wir, wie MultiContext die Datenverarbeitung für Unternehmen revolutioniert und eine nahtlose Bereitstellung über mehrere Standorte hinweg ermöglicht und gleichzeitig den Datenschutz und die Integrität gewährleistet.
Stellen Sie sich das vor: eine Organisation mit unterschiedlichen Abteilungen, von denen jede ihre eigenen Datenverarbeitungsmodule hat. Aus Datenschutzgründen können Rohdaten nicht für Analysezwecke zentralisiert werden. Stattdessen nur aggregierte Daten kann extrahiert und weiterverarbeitet werden. Die Abteilungen A und B nutzen ihren Spark-Cluster und speichern Daten in HDFS-, CSV-Dateien und einer Datenbank mit JDBC-Verbindung, während Abteilung C einen Flink-Cluster und eine weitere Datenbank für ihre Datenverarbeitungsanforderungen verwendet.
Und hier kommt MultiContext ins Spiel.. Mit dieser innovativen Funktion können Entwickler mühelos verschiedene Datenkontexte definieren, die auf die Bedürfnisse der einzelnen Abteilungen zugeschnitten sind. Diese Konfigurationen umfassen Informationen über die Spark- und Flink-Cluster, potenzielle JDBC-Installationen und den festgelegten Pfad zum Speichern verarbeiteter Daten. Die unterschiedlichen Systeme werden wie folgt definiert:
Als Nächstes können Entwickler mithilfe des MultiContextPlanBuilders die gewünschten Datenverarbeitungsaufgaben in diesen unterschiedlichen Kontexten skizzieren.
Mit nur wenigen Codezeilen können Entwickler jetzt die Datenverarbeitung vor Ort an verschiedenen Standorten ausführen. Darüber hinaus können die Installationen an jedem Standort heterogen sein und verschiedene Cluster wie Spark oder Flink nahtlos aufnehmen. Wichtig ist, dass man denselben Job an mehrere Spark-Cluster gleichzeitig vergeben kann. Dies ist in Spark nicht möglich, da es nicht erlaubt, mehr als einen Spark-Kontext in einer einzigen JVM zu haben.
Zusammenfassend lässt sich sagen, dass MultiContext eine neue Ära der föderierten und In-situ-Datenverarbeitung einläutet und es Unternehmen ermöglicht, ihre verteilte Infrastruktur zu nutzen und gleichzeitig Datenschutz und Effizienz zu gewährleisten. Seien Sie gespannt auf weitere Updates und Einblicke vom Scalytics-Team, während wir weiterhin an Innovationen im Bereich der Vereinheitlichung von Datenverarbeitungslösungen arbeiten.
Über Scalytics
Apache Wayang: Das führende Java-basierte Federated Learning-Framework
Scalytics nutzt Apache Wayang als Basis, und wir sind stolz darauf, dieses Projekt zu fördern. Sie können das öffentliches GitHub-Repository hier einsehen. Wenn Ihnen unsere Software gefällt, zeigen Sie Ihre Wertschätzung und Unterstützung – ein Stern ⭐ würde uns viel bedeuten!
Wenn Sie professionelle Unterstützung von unserem Team von branchenführenden Experten benötigen, können Sie sich jederzeit an uns über Slack oder E-Mail wenden.