Gartners KI-Hype-Zyklus 2024: Ein Blick in die Zukunft
Laut dem KI-Hype-Zyklus 2024 veröffentlicht von Gartner, ist klar, dass KI-Engineering, ModelOps/DataOps, insbesondere die Bereitstellung synthetischer Daten neben realen Daten, in den kommenden Jahren zunehmend an Bedeutung gewinnen werden. Der Bericht erwähnt KI-fähige Daten, die der Hype-Zyklus-Welle jetzt einen Schritt voraus sind. Cloud-KI-Dienste durchleben derzeit die Talsohle der Desillusionierung. Diese Beobachtungen unterstreichen die Bedeutung von Datenmanagement und Datenarchitektur, insbesondere in zukünftigen Investitionszyklen.
Sollten wir weiterhin bestehende Datenbanksysteme ersetzen oder sollten wir eine andere Datenplattformtechnologie einführen, die das Ende unserer Datensilos verspricht?
Scalytics ermöglicht es Ihnen, alle Ihre Daten auf den drei Abstraktionsebenen zu integrieren. Sie integrieren die Daten, die Sie benötigen, ohne sie verschieben zu müssen. Keine Datenbewegung und keine Datenmigration, sondern einfacher Zugriff auf die wertvollen Bits und Bytes. Dies treibt Ihre digitale Entwicklung hin zu Datensouveränität und responsiver KI voran.
Die Entwicklung der Datenplattformen: Von Hadoop zu Cloud Data Lakes
Wann Apache Hadoop begann, die Art und Weise, wie wir mit Daten umgehen, zu revolutionieren. Wir konnten einen Denkwandel bei vielen Menschen und Organisationen beobachten. Seitdem haben uns viele Verbesserungen eine endlose Reihe von Tools für den Umgang mit Daten in jeder Hinsicht und in jedem Bereich zur Verfügung gestellt, aber dennoch gibt es keine ideale Datenplattform. Auch dies führt zu Datensilos. Aus technischer Sicht könnten die Daten jedoch bereits viel reibungsloser integriert werden, als dies heute der Fall ist.
Mentale Grenzen im Datenmanagement
Es scheint, dass die Grenzen keine technischen Einschränkungen mehr sind, oder die Einschränkungen der Physik (was für einige Grenzfälle immer noch gilt). Heutzutage müssen sich die meisten datenbezogenen Anwendungen mit mentalen Grenzen, Vorschriften und den Auswirkungen organisatorischer Strukturen auseinandersetzen.
Die Bedeutung von Daten in modernen Unternehmen
Es ist wichtiger denn je, die richtigen Daten zur richtigen Zeit an den richtigen Ort zu bringen. Aber auch das Mandat zur Verarbeitung der Daten muss in den richtigen Händen liegen, sonst zahlen sich die technologischen Vorteile nicht aus. Es ist so wichtig, die Fähigkeiten der kürzlich erfundenen Technologien mit vorhandenen Daten und neu entstehenden Datenströmen in Einklang zu bringen. In vielen Organisationen werden Daten aus Geschäftsabläufen so abgeleitet, dass die Datenverarbeitung zu einem effizienten Unterstützungsprozess für das Unternehmen wird. Nur wenn die gesammelten Daten für Geschäftsentscheidungen verwendet werden können, sind sie von echtem Wert. Andernfalls kostet es nur Geld und gibt nichts zurück.
Gebäude eines skalierbare Dateninfrastruktur Für ein skalierbares Unternehmen, das technische Einschränkungen umgeht, ist das nur sinnvoll, solange die gewählte Technologie frisch ist und als Innovationsauslöser. Aber maschinelles Lernen, Datenwissenschaft und KI bewegen sich in Richtung Plateau der Produktivität. Dies wird die Art und Weise, wie wir mit Modelltraining und automatisierten Datenprodukten umgehen, verändern.
Mit Apache Hadoop haben wir gesehen, wie eine Innovation die Datenbranche erobert und verändert hat. Die Idee, einzelne Server zu skalieren, mehrere Computer innerhalb eines Clusters in einem flexiblen, elastischen Ansatz zu verwenden und insbesondere Speicher und Verarbeitung in einem Worker-Node zu kombinieren, ermöglichte uns die Lokalität der Daten und einen sehr hohen Durchsatz für bestimmte Workloads. Data Warehouses wurden in Hadoop-Cluster migriert, und diese wurden etwas später in die Clouds migriert. Die Cloud Data Lakes wurden zu Cloud-Data Warehouses und boten eine Reihe neuer Datenanalysefunktionen. Fragen wie: „Welcher Cloud-Anbieter? Welche Region? Welcher Technologie-Stack?“ waren wichtig und beeinflussten, wie Unternehmen ihre Daten- und Analysebudgets investierten.
Cloud-Unabhängigkeit war ein weiterer Wunsch vieler Kunden, die neue Dateninitiativen starteten. Es entstand die Idee, wertvolle Datenbestände zu besitzen, aber der Wert der Daten wird ignoriert, solange die Daten nicht innerhalb des Unternehmens oder sogar in einem breiteren Kontext genutzt werden.
Datenprodukte und das Datennetz, zusammen mit dezentrale Dateninfrastrukturen wurden vorgeschlagen, und schließlich sind wir an einem Punkt angelangt, an dem wir alle denken: Daten sind so wertvoll, und wir alle wollen diese Ressourcen nutzen, die uns in unseren Unternehmen zur Verfügung stehen. Seien wir ehrlich! Ist es wirklich so einfach, die vorhandenen Daten schnell in einem neuen, produktionsbereiten Geschäftsszenario zu verwenden, ohne einen riesigen Projektaufbau und ein starkes Budget?
Aus technologischer Sicht können wir ganz klar sagen: Ja! Die Funktionen zur Datenspeicherung und -verarbeitung sind billig, dynamisch skalierbar, und die Nutzung der gesamten Automatisierung, die von SaaS-Anbietern angeboten wird, macht es einfach, Datenanalyselösungen zu verwenden, ohne dass in einem Unternehmen tiefgreifende technische Kenntnisse erforderlich sind. Eine Geschäftsperson mit Prozessverständnis kann enorme Vorteile aus Self-Service-Analyseplattformen ziehen.
Aber warte! Self-Service Analytics (SSA) ist noch keine KI-Anwendung und daher nicht Teil des KI-Hypes. SSA kann von KI unterstützt werden, aber diese Art von Plattformfunktion fällt nicht in meinen Anwendungsbereich für diesen Artikel.
Ich möchte mich mit der Verwendung von Geschäftsdaten für mehr als Ad-hoc-Analysen und Berichte befassen.
Wir freuen uns auf das Aufkommen von Agenten, die verschiedene Geschäftsbereiche unterstützen. Das beginnt mit Expertensystemen, die von Dritten bereitgestellt werden, und geht weiter zu internen Systemen verwaltete Multi-Agenten-Systeme, die mit unternehmenseigenen Daten und Expertenwissen geschult werden. Neben dem kontinuierlich wachsenden Einfluss von GenAI auf UI/UX können wir deutlich erkennen, dass das Thema Entscheidungsautomatisierung in den Vordergrund rückt. Und selbst wenn die endgültige Entscheidung in der Hand eines Menschen liegt, was zusammen mit der Verantwortung für diese Entscheidung abzeichnet, kann unsere Technologie diese Person oder eine Gruppe von Entscheidungsträgern unterstützen, indem sie den Kontext auf greifbare Weise bereitstellt, sodass menschliche Entscheidungen das Ergebnis tiefer Erkenntnisse sind, die aus Systemen gewonnen wurden, die Deep Learning verwenden.
Wir sollten uns nicht in der Frage verlieren: Wer kann in einer bestimmten Situation letztendlich entscheiden, sondern wir sollten uns fragen: Wie können wir den Entscheidungsträger effizient unterstützen, indem wir Daten zusammen mit Lernalgorithmen verwenden, die weit über die Fähigkeiten von uns, den Menschen, hinausgehen?
Föderiertes Lernen und EdgeAI: Die Zukunft der Datenintegration
Viele der heutigen KI-Gadgets verwenden zentral verwaltete große Sprachmodelle. Die Erstellung interner Sprachmodelle ist möglich, aber es gibt einen Trend zu kleinen Sprachmodellen für spezielle Anwendungsfälle. SLMs laufen auf hocheffizienter Hardware mit minimalem Ressourcen- und Energieverbrauch. Edge-KI ist der Trend, der auch im Gartner-Bericht erwähnt wird.
Bearbeitung Daten am Rand liefert schnellere Ergebnisse ohne den Aufwand, Rohdaten verschieben zu müssen. Datenbewegungen sind aus zwei Gründen von entscheidender Bedeutung: Zum einen sind der technische Aufwand und der Ressourcenaufwand beim Verschieben von Daten erforderlich. Das kostet Zeit, Geld und Energie, und außerdem erlauben es die Richtlinien zur Datennutzung oft nicht, Daten an Orte zu bringen, an denen sie aggregiert und in andere Kontexte zusammengeführt werden können, auf die der Datenbesitzer keinen Einfluss hat.
Die Idee der breit angelegten Feinabstimmung Ihrer eigenen LLMs oder des Trainings kleinsprachiger Modelle kann als der nächste Schritt in unserer digitalen Entwicklung angesehen werden. Fein abgestimmte Modelle oder gemeinsam trainierte Modelle ermöglichen es uns, die nächste Stufe der Unternehmensdatennutzung zu erreichen. Der Einsatz von Ad-hoc-Analysen spielt eine entscheidende Rolle bei der Untersuchung neuer Ideen, bei der Problemanalyse und beim Entwurf neuer Algorithmen für neue Geschäftsabläufe.
Eine der wichtigsten Herausforderungen ist folgende: Um automatisierte KI-Lösungen zu unterstützen, müssen wir in der Lage sein, Einführung neuer Modelle in unsere bestehenden Datenumgebungen schnell und ohne all die Migrationsschmerzen.
Mit Skalytiker, Sie können dies tun, indem Sie einfach vorhandene Daten in Plattformen wie Ihrem bevorzugten DWH, Data Lakes, herkömmlichen RDBMS oder Key-Value-Speichern, Dokumentenspeichern oder spezielleren Systemen (Graph DB, Time Series DB) verwenden. Mit cleveren Integrationsprotokollen kann man flexible, verteilte Feature-Stores erstellen und betreiben. Ein solcher virtueller Feature-Store kann zur einheitlichen, aber dezentralen Datenquelle für ML/DS-Algorithmen und für Intelligente Anwendungen wie im Gartner-Bericht erwähnt. Beispielsweise kann man sich Transferlernen für Computer-Vision-Modelle nach Ihrem eigenen Bild als Beispiel für einen Anwendungsfall vorstellen. Der Einsatz von SLMs und die Feinabstimmung sind der nächste Schritt zur Erfassung von Geschäfts-, Markt- und Prozesswissen.
Ab sofort benötigt jedes Unternehmen eine robuste Datenbereitstellungslösung, um alle Automatisierungen und all seine intelligenten Systeme zu verwalten, und selbst wenn Sie nicht vorhaben, eine komplexe KI-Infrastruktur zu betreiben, können die vorhandenen KI-Dienste für Sie nur von Vorteil sein, solange die Trainingsdaten zuverlässig, sicher und effizient bereitgestellt werden können.
Jede KI-Initiative beginnt mit einer riesigen Datenmigration Das Projekt hat sich bisher nicht als einfach anzuwendender Ansatz erwiesen.
Wenn Sie Ihre Daten also in den richtigen Umfang einordnen, z. B. in ein Datenprodukt, mit einem genau definierten Eigentümer und Zweck, können Sie den Wert erhöhen, den Sie aus diesem Teil der Daten ziehen. Dieser Schritt überwindet die Grenzen der Aufgabenteilung zwischen Geschäftsleuten und Technikern und öffnet die Tür für eine abteilungs- und organisationsübergreifende Nutzung der Daten.
Die Nutzung der heutigen Cloud-Technologie und der weit verbreiteten Abstraktionen auf mehreren Ebenen wie Containern, Speichernotizen und SQL-Engines ist mit besonderen Kosten verbunden. Der Integrationspfad kann sehr holprig sein. Das Verschieben von Dateien auf einem so holprigen Weg ist keine gute Idee, daher sprechen wir uns erneut für die Datenlokalität aus, aber jetzt auf einer anderen Ebene. Wir legen großen Wert auf die Datensouveränität zusätzlich zur technischen Datenlokalität und dezentralen Daten mit einer klaren Trennung zwischen Speicher- und Verarbeitungskapazitäten und Kapazitäten.
Zusammenfassung
Während das Apache Hadoop-Ökosystem mit Apache Spark und vielen anderen Verarbeitungs-Engines die technischen Skalierbarkeitsprobleme vieler Analytics-Anwendungsfälle gelöst hat, betreten wir jetzt die Organisationsebene. Es ist nicht erforderlich, alle Daten in einem zentralen System zu haben, und es ist nicht erforderlich, in allen Abteilungen und Organisationen dieselbe Technologie zu verwenden, sondern eine Integrationsebene, die Ihnen den Datenverbund für erweiterte Analysen und Modellschulungen ermöglicht. Dies wird zu einer wichtigen Triebkraft für vernetzte digitale Unternehmen mithilfe von Daten, Automatisierung und KI. Federated Learning und Federated Analytics werden die Technologie sein, die Ihnen dabei hilft, reibungslose Datenintegrationsebenen für Dienste und Datenprodukte mit geringen und drastisch reduzierten Datenbewegungen zu implementieren, um zukunftssichere Datenprodukte und -services innerhalb Ihres Unternehmens und für Ihre Kunden zu entwickeln.
TL; DR
Der AI Hype Cycle 2024 von Gartner unterstreicht die zunehmende Bedeutung von KI-Engineering, ModelOps/DataOps und KI-fähigen Daten. Der Bericht betont die Bedeutung von Datenmanagement und Architektur in zukünftigen Investitionszyklen. Apache Hadoop hat die Datenverarbeitung revolutioniert, aber es gibt keine ideale Datenplattform, was wiederum zu Datensilos auf einer anderen Ebene führte. Es ist immer noch wichtig, die richtigen Daten zur richtigen Zeit an den richtigen Ort zu bringen und sie in den richtigen Händen zu verarbeiten. Maschinelles Lernen, Datenwissenschaft und KI bewegen sich in Richtung Produktivitätsplateaus und verändern die Art und Weise, wie wir mit Modelltraining und automatisierten Datenprodukten umgehen.
Über Scalytics
Apache Wayang: Das führende Java-basierte Federated Learning-Framework
Scalytics nutzt Apache Wayang als Basis, und wir sind stolz darauf, dieses Projekt zu fördern. Sie können das öffentliches GitHub-Repository hier einsehen. Wenn Ihnen unsere Software gefällt, zeigen Sie Ihre Wertschätzung und Unterstützung – ein Stern ⭐ würde uns viel bedeuten!
Wenn Sie professionelle Unterstützung von unserem Team von branchenführenden Experten benötigen, können Sie sich jederzeit an uns über Slack oder E-Mail wenden.