Blossom Studio, ein integraler Bestandteil von Blossom Sky, der in jeder Lizenz ohne zusätzliche Kosten verfügbar ist, bietet eine dynamische Cloud-native Schnittstelle, die die Erstellung, Ausführung und Überwachung von Datentransformationsaufgaben, ML- und KI-Pipelines sowie Datenänderungsaufgaben optimiert. Basierend auf Apache Wayang verwaltet Blossom Studio diese Prozesse effizient auf verschiedenen Plattformen. Das Ergebnis? Umfassende Einblicke in Schema- und Datenergebnisse bei jedem Workflow-Schritt.
Ein bemerkenswerter Vorteil von Blossom Core ist die intrinsische Unterstützung für erweiterte Tabellenformate wie Iceberg, Parquet, JSON, CSV und ähnliche, die eine nahtlose Datenintegration und Transformation für ein breiteres Spektrum von Datensätzen gewährleistet. Blossom Studio wurde nicht nur für strukturierte Daten entwickelt, sondern zeichnet sich auch bei halbstrukturierte Daten aus, was für viele herkömmliche Schnittstellen eine Herausforderung darstellt.
Blossom Studio ist ein Cloud-natives Add-on zu Blossom-Core für die Entwicklung von Datenverarbeitungspipelines (ETL) auf Low-Code-Weise.
Funktionsweise von Blossom Studio
Wenn Sie eine Aufgabe in Blossom Studio starten wollen, stehen Ihnen eine Reihe von Datenquellen zur Auswahl, darunter PostgresSQL, Spark, Flink und lokale Dateisysteme und verteilte Systeme wie HDFS. Dies gewährleistet eine schnelle Datenaufbereitung für weitere Analysen in unterschiedlichen Datenlandschaften. Darüber hinaus bietet Blossom Studio Tools zur Überwachung von ETL-Workflows, um sicherzustellen, dass sie einwandfrei funktionieren. Die Möglichkeit, in jeder Phase eine Vorschau der Datensätze anzuzeigen, hilft bei der Fehlerbehebung bei ETL-Aufgaben erheblich.
Mit der intuitiven Oberfläche von Blossom Studio können Benutzer:
- Daten aus Quellen wie PostgresSQL oder verteilten Dateisystemen wie HDFS extrahieren
- Verschiedene Datentransformationen einrichten, einschließlich Zuordnen, Filtern, Gruppieren und zusammenfassen
- Die Datenverarbeitungsplattform auswählen, sei es Java 8 Streams oder Apache Spark
- Das Schemata oder Beispiele von Datensätzen an jedem Punkt der Entwicklung einsehen
- Müheloses Initiieren, Überwachen und Verwalten von Aufgaben, die in Blossom Studio integriert sind
- Pipelines und Prozessoren mit anderen Benutzern teilen
Blossom Studio steuert Blossom Core und zeichnet sich durch das Kuratieren und Verwalten von Aufgaben aus, die Daten aus mehreren Datenquellen sammeln, verfeinern und vereinheitlichen, ohne sie an einen zentralen Ort zu verschieben. Und für Anwender mit komplizierten Anforderungen dient Blossom Studio als leistungsstarkes Tool zur Diagnose und Anpassung von Jobskripten. Blossom Studio verfügt über eine grafische Benutzeroberfläche, die auf sehr intuitive Weise verschiedene Datenquellen verbinden und abfragen oder Daten aus mehreren Datenquellen zusammenführen kann. Es unterstützt auch komplexe Datentransformationen, die auf Plattformen der Wahl des Benutzers verarbeitet werden können.
Der visuelle Job-Editor der Plattform bietet Benutzern eine Vielzahl von Funktionen:
- Die Fähigkeit, mehrere Datenquellen und Ziele zu integrieren
- Eine Vorschau der Daten an jedem Workflow-Knoten anzeigen
- Implementation von verschiedenen Datentransformationen, von einfachen Zuordnungen bis hin zu komplexen Verknüpfungen
- Sofortiger Wechsel zwischen Datenverarbeitungs-Frameworks, ermöglicht schnelles Testen und ultraschnelle Bereitstellung
- Unabhängigkeit der Datenplattform — Nahtloses Wechseln von einer unterstützten Plattform zu einer anderen (z. B. Spark -> Flink)
Darüber hinaus eignet sich der Skripteditor in Blossom Studio hervorragend zum Erstellen oder Ändern des ETL-Codes für Ihre Aufgaben. Nachdem Sie das ursprüngliche Design festgelegt haben, können Sie das generierte Skript an die Besonderheiten Ihrer Aufgabe anpassen. Das Leistungs-Dashboard von Blossom Studio bietet einen umfassenden Überblick über Ihre ETL-Aufgaben. Dieses Dashboard bietet wichtige Einblicke in die Ausführung von Aufträgen in ausgewählten Zeiträumen und stellt sicher, dass Sie immer auf dem Laufenden sind.
Unterstützung für die Partitionierung von Datensätzen
Mit Blossom Studio sind Sie in der Lage, partitionierte Datensätze mit Finesse zu verarbeiten. Verarbeiten, filtern und transformieren Sie partitionierte Daten effizient und sorgen Sie so für eine optimale Nutzung ohne unnötige Datenlisten oder Ladevorgänge.
Warum sollten Sie sich für Blossom Studio entscheiden?
Blossom Studio, integriert in Blossom Core, bietet eine optimierte Möglichkeit zur Erstellung von ETL-Workflows. Mit seinen Fähigkeiten und der Stärke von Apache Wayang wird es zu einem unverzichtbaren Tool für ETL-Entwickler, die nach zuverlässigen Prozessen suchen, um umfangreiche, halbstrukturierte Datensätze zu verwalten und sie in strukturierten Datenumgebungen abzulegen. Der Höhepunkt eines benutzerorientierten Designs, gepaart mit der Vielseitigkeit der fortschrittlichen Verarbeitungsengine von Blossom Core, macht Blossom Studio zu einem unverzichtbaren Tool im modernen Datenmanagement.
Mit Blossom Studio erhalten Sie nicht nur ein vereinfachtes Jobmanagement, sondern auch einen umfassenden Überblick über Ihre Aufgaben und deren Zusammenhänge. Die konsolidierte Oberfläche der Plattform bietet eine ständig aktualisierte Perspektive auf ETL-Operationen und Ressourcenzuweisungen. Dies macht sie zu einem unschätzbaren Vorteil für alle, die ihre Datenverarbeitungsabläufe optimieren möchten.
Über Scalytics
Apache Wayang: Das führende Java-basierte Federated Learning-Framework
Scalytics nutzt Apache Wayang als Basis, und wir sind stolz darauf, dieses Projekt zu fördern. Sie können das öffentliches GitHub-Repository hier einsehen. Wenn Ihnen unsere Software gefällt, zeigen Sie Ihre Wertschätzung und Unterstützung – ein Stern ⭐ würde uns viel bedeuten!
Wenn Sie professionelle Unterstützung von unserem Team von branchenführenden Experten benötigen, können Sie sich jederzeit an uns über Slack oder E-Mail wenden.