LLMs as a kickstarter for AI applications - unfortunately not yet a sure-fire success

LLMs Large Language Models Generative KI

Auf den ersten Blick wirken Large Language Models (LLMs) als unkomplizierte und schnelle Methode zur Entwicklung von KI-Anwendungen. Dabei kommt schnell die Frage auf: “reicht das aus?” Aus diesem Grund haben wir uns angeschaut, wie mit LLMs Mehrwert geschaffen wird und ob dieser für eine marktreife KI- Anwendung ausreicht.

ChatGPT und Generative KI haben die KI-Diskussion auf eine neue Ebene gehoben und die Einstiegshürden für den Einsatz von KI gesenkt. Inzwischen sind wir in der Ära des Prompting angelangt: Um KI zu nutzen, ist es nicht mehr unbedingt notwendig, eigene KI-Modelle zu trainieren. Stattdessen können LLMs genutzt werden, um mit gut durchdachten Prompts schnell wertvolle Ergebnisse zu erzielen. LLMs sind computergestützte Modelle, die aus einem künstlichen neuronalen Netz bestehen, welches mit großen Textmengen trainiert und speziell für die Textproduktion entwickelt wurde.

Durch die Nutzung bestehender Modelle lassen sich einige Herausforderungen, die mit dem Einsatz von KI verbunden sind, umgehen. Es können zudem schon früh große Fortschritte in der Entwicklung einer KI-Anwendung erreicht werden, da sich viele Aufgaben schnell lösen lassen. Dennoch gibt es einige Entscheidungen und Anstrengungen, die komplexer sind und mehr Zeit in Anspruch nehmen, als es zunächst den Anschein hat:

LLMs - der richtige Platz auf dem Technologie-Stack

Es gibt verschiedene Möglichkeiten, ein KI-Produkt mit Hilfe von LLMs aufzubauen, da die Produkte an verschiedenen Stellen des LLM-Stacks angesiedelt sein können. Es gibt drei Ebenen des Stacks, die für eine Anwendung in Betracht gezogen werden können: Apps, Modelle, und Infrastruktur.

Apps können LLM-Fähigkeiten entweder als zusätzliche Funktion in der Anwendung oder als zentraler Werttreiber eingesetzt werden. Eine besondere Art von Anwendungen sind End-to-End-Apps, die sowohl das Modell als auch die Benutzungsoberfläche bereitstellen (z.B. Midjourney, ChatGPT).

‍LLM-Modelle sind als Open-Source-Modell (z.B. LLaMA, RedPajama) oder als Closed-Source-Modell (z.B. GPT4) verfügbar. Bei Open-Source-Modellen besteht die Möglichkeit, auf den Quellcode zuzugreifen, (Trainings-)Daten einzusehen und Änderungen am Code vorzunehmen. Bei Closed-Source-Modellen ist keine Einsicht in den Quellcode oder andere Daten möglich. Es existieren außerdem Modell-Hubs, die eine Vielzahl von Modellen zur Verfügung stellen (z.B. HuggingFace).

Im Bereich der Infrastruktur können Modelle beispielsweise für Anwendungen in Machine Learning Operations (z.B. Snorkel), im Datenmanagement, in Cloud-Plattformen (z.B. Azure, AWS) oder in der Computer-Hardware (z.B. Google TPUs) eingesetzt werden.

LLMs - geringe Transparenz beim Einsatz

Neben der Position des Produkts auf dem Technologie-Stack ist bei der Integration von LLMs zu beachten, dass die Ergebnisse probabilistisch und nicht deterministisch sind. Das bedeutet, dass der Output von Abfragen variiert, obwohl der Input gleich bleibt. Dies liegt u.a. daran, dass bereits kleine Änderungen des Inputs das Resultat verändern können und verschiedene Parameter oft zu zufälligen Ergebnissen führen. Diese Zufälligkeit ist erwünscht und wird meist mit “Kreativität” gleichgesetzt. Auf diese Weise können realistische und gleichzeitig dynamische Texte generiert werden.

Wie genau die Zufallsparameter gewählt werden oder welche komplexen Algorithmen für die statistischen Ergebnisse verwendet werden, ist oft im Modell gekapselt und kann bei der Integration des LLMs häufig nicht eingesehen oder angepasst werden. Das heißt, die Modelleingaben und -ausgaben sind bekannt, aber alles, was im Modell passiert, ist eine Art Black Box. Darüber hinaus sind je nach Modell oft keine oder nur wenige Informationen über die Trainingsdaten oder das Modell-Tuning bekannt und die verwendeten Algorithmen sind meist so komplex, dass sie im Detail nur schwer nachvollziehbar sind.

Die oben beschriebenen probabilistischen Ergebnisse und der Black-Box-Charakter führen dazu, dass die Ergebnisse von Large Language Models schwer vorherzusagen sind. Zudem ist der Weg vom Input zum Output im Einzelnen kaum zu durchschauen. Dies kann zu Skepsis und Vertrauensverlust gegenüber der Anwendung führen. Darüber hinaus mangelt es bei LLMs an Transparenz - oft sind nur wenige Informationen (z.B. über die Trainingsdaten) verfügbar, so dass ethische Implikationen schwer abzuschätzen sind.

LLMs für den eigenen Use Case anwenden

Eine Anwendung, die vorhandene LLMs ohne eigenes Training oder Tuning verwendet, ist wie oben beschrieben weniger flexibel, aber gleichzeitig entfällt der Aufwand für das Training sowie die Bereitstellung eigener Daten und es lassen sich dennoch oft schnell Ergebnisse erzielen. Chip Huyen schreibt in seinem Blogbeitrag über den Aufbau von LLM-Anwendungen für die Produktion:

“It’s easy to make something cool with LLMs, but very hard to make something production-ready with them."

Dieses Zitat verdeutlicht, dass durch die Integration bestehender LLMs in ein Produkt schnell große Fortschritte erzielt werden können, der Weg zum finalen Produkt aber noch weit ist.

Auf dem Weg zum marktreifen Produkt können (besonders in der Prototypenphase) durch die Integration von LLMs schnell wichtige Erfolge erzielt werden: viele Aufgaben können mit ausreichender Qualität in kurzer Zeit gelöst werden. Ein Schätzung besagt, dass so 80 % des Wertes des fertigen Produktes in 20 % der Zeit erreicht werden kann. Während der Entwicklung kann zu diesem Zeitpunkt der Eindruck entstehen, dass nur noch wenig Aufwand notwendig ist, um mit dem Produkt auf den Markt zu gehen. Tatsächlich sind für die verbleibenden 20 % des Produktwertes ca. 80 % der Arbeit und Zeit erforderlich, um hervorragende Ergebnisse für die spezifischen Aufgaben zu erzielen.

Nachdem der größte Teil des Produktwertes schnell erreicht wurde, verbleiben eine Reihe komplexer Aufgaben, die viel Zeit in Anspruch nehmen können, um das LLM-Produkt wirklich fertig zu stellen:

Fachspezifische Daten: Integration von Fach- und unternehmensspezifische Informationen.
Prompt-Engineering und Prompt-Verkettung: Prompts erstellen, anpassen, iterieren und miteinander verknüpfen.
Aufbereitung der Inputs und Outputs: Input und Output des LLMs müssen vor- und nachbereitet und ggf. angepasst werden (z.B. Formatanpassung).
Performance und Tests: Die Performance muss evaluiert werden und die Tests müssen die Funktionalitäten des Modells abdecken und überprüfen.
MLOps: Machine Learning Operations ist verantwortlich für die Bereitstellung, Verwaltung und Wartung der Modelle in der Produktion.
Erwartungsmanagement: Die Integration von Modellen sollte transparent kommuniziert und bei UX/UI-Entscheidungen mitgedacht werden.
‍Unabhängigkeit und Aktualität des Modells: Neue Entwicklungen müssen im Auge behalten werden, um das Modell ggf. anzupassen oder sogar zu wechseln. Bei einem Modellwechsel oder bei Anpassungen des Modells durch Updates ist es wahrscheinlich, dass sich die Ergebnisse bei gleichbleibenden Prompts ändern. Das kann zu einem zusätzlichen Aufwand führen.

Fazit

Zusammenfassend lässt sich sagen, dass LLMs je nach Anwendungsfall für unterschiedliche Produkte eingesetzt werden können. Wenn Modelle nicht selbst trainiert und mit eigenen Daten bestückt werden, können sie in der Anwendung wie eine Black Box wirken. Dennoch kann es oft sinnvoll sein, auf bestehende Modelle zurückzugreifen, um zeit- und kostenintensive Aufgaben (z.B. das Sammeln, Beschriften und Aufbereiten von Daten für das Modelltraining) zu vermeiden.

Wenn Unternehmen beschließen, bestehende LLMs in ihre Produkte zu integrieren, werden oft in kurzer Zeit große Fortschritte erzielt – und es sieht so aus, als ob viele Aufgaben bereits in der Prototypenphase gelöst werden können. Es sind jedoch anschließend noch einige komplexe Herausforderungen zu bewältigen, um den hohen wahrgenommenen Wert in einen hohen tatsächlichen Nutzen für das marktreife Produkt umzuwandeln. Teams, die sich mit der Integration befassen, sollten sich der Komplexität und des Zeitaufwands dieser Aufgaben bewusst sein und sie in der Planung von KI-Projekten berücksichtigen.

‍

Quellen

Vielen Dank an das Organisationsteam der “Women+ in Data and AI” Konferenz für eine inspirierende Veranstaltung. Die Erkenntnisse und Ideen aus den Vorträgen haben zur Gestaltung dieses Blogartikels beigetragen.
Ein besonderer Dank geht an Hanna Behnke für ihren Vortrag zum Thema “The (U)X Factor: How to Build Lasting LLM-Based Products Amidst Rapid AI Innovation”.