KI-Sprachmodelle
Gastbeitrag von Martin Möller-Wettingfeld
KI-Sprachmodelle revolutionieren die Welt des digitalen Contents
Wenn Sie sich gelegentlich mit digitalen Innovationen, mit künstlicher Intelligenz bzw. Machine Learning, oder auch nur mit digitalem Content auseinandersetzen, werden Sie immer häufiger auf Begriffe wie „KI-Sprachmodelle“, „NLG“ „OpenAI“, „GPT-3“ oder „GPT-X“ stoßen. Wir alle registrieren, dass dabei immer von etwas ganz Großem die Rede ist. Dieser Artikel soll Ihnen helfen zu erahnen, was das „Große“ an den KI-Sprachmodellen ist und warum Sie sich nicht früh genug damit befassen können.
Von künstlicher Intelligenz und natürlicher Sprachgenerierung
Artificial Intelligence (AI) bzw. Künstliche Intelligenz (KI), gibt es nicht. Keine Software der Welt hat Urteilsfähigkeit, Verstand oder gar Vernunft und kann deswegen auch nicht intelligent sein. Trotzdem begleiten uns die beiden Kürzel AI bzw. KI permanent, weil sie seit vielen Jahren das gesamte Forschungsfeld beschreiben, irgendwie gut klingen und es sich eingebürgert hat lernfähige Algorithmen als KI zu bezeichnen.
Bei der Erforschung und der Suche nach künstlicher Intelligenz hat man nämlich festgestellt, dass „Maschinen“, oder besser Algorithmen, in gewisser Weise lernen können. Sie kommen bei der Analyse von Daten durch Mustererkennung und Trial-and-Error zu immer besseren Ergebnissen und verbessern sich dabei selbst. Das nennt man Machine Learning (ML) und es ist ein Teilbereich der Künstlichen Intelligenz.
Es liegt in der Natur digitaler Prozesse, dass man sie praktisch unendlich skalieren kann – so auch beim Machine Learning: Die Lern-Schleifen können in Sekunden millionenfach durchlaufen werden, wenn der Rechner bzw. das Rechenzentrum oder der Rechenzentrumsverbund genug Leistung hat. Denn das Internet besteht aus Billionen von Texten, die sich gut durchsuchen und analysieren lassen. Die KI (also der lernfähige Algorithmus) versteht dadurch, dass es sich z.B. bei „Golf“ um eine Küstenform, einen Sport oder um ein Auto handeln kann. Der Kontext, z.B. eines Sportportals, gibt der KI Auskunft darüber, dass es mit hoher Wahrscheinlichkeit um die Sportart geht. Das ist Machine Learning auf der Basis von Texten und der Output dieses ML Prozesses ist ein natürlichsprachlicher Text. Dessen Generierung bezeichnet man als Natural Language Generation (NLG). Dafür gibt es verschiedene Verfahren (s.u.).
Die KI produziert also automatisch Text bzw. Content. Und das in Sekundenbruchteilen und unter Berücksichtigung unfassbar vieler Quellen. Nimmt man nun ein riesiges Rechenzentrum und lässt darin solch eine lernfähige Software unendlich viele Texte analysieren und bringt ihr bei, wie diese Informationen miteinander verknüpft werden, um zu einem Thema Fragen beantworten zu können oder gleich ganze Texte zu formulieren, hat man ein KI-Sprachmodell.
Unser Autor
Martin Möller-Wettingfeld,
Director Business Development bei Valtech Germany
Das (und anderes) wollten Elon Musk, Peter Thiel und Co. im großen Maßstab machen und haben OpenAI finanziert. Das Unternehmen hat den Generative Pre-trained Transformer (GPT-3) entwickelt und letztes Jahr für die kommerzielle, kostenpflichtige Nutzung via Schnittstelle freigegeben. Heute können KI-Sprachmodelle im Allgemeinen und GPT-3 im Besonderen plötzlich viel mehr, als man ursprünglich beabsichtigt hatte. So viel, dass die Beherrschung dieser Technologien in den nächsten Jahren entscheidend werden könnte. Deswegen gibt es auch in Europa bzw. Deutschland ambitionierte Pläne, sich mit einem eigenen KI-Sprachmodell – Arbeitsname GPT-X – zu positionieren, um nicht wieder einen Teil der digitalen Souveränität aus der Hand zu geben.
Die 1. Generation der automatischen Textgenerierung – eigentlich noch ein Workaround
Die erste Generation der automatischen Textgenerierung hat nicht wirklich komplette Texte generiert, sondern Text-Templates, also von Menschen geschriebene Teilsätze, regelbasiert zusammengesetzt und ggf. modifiziert oder angepasst. Es ist leicht nachzuvollziehen, dass dadurch ein relativ großer initialer Aufwand entsteht und nicht alles damit machbar ist.
Aber für bestimmte Szenarien hat sich dieser Aufwand gelohnt bzw. lohnt sich noch. Zum Beispiel für Wetter- oder Sportmeldungen, bestimmte Arten von Beschreibungen (z.B. Produktbeschreibungen) oder für kürzere Reports war und ist die automatische Textgenerierung der ersten Generation schon sehr effektiv. Große Medienunternehmen in den USA erstellen z.B. verschiedene Arten von Meldungen (Sport, Wetter, Verkehr, Börsendaten) schon seit Jahren mit solchen Systemen. Allerdings war das Spektrum der Einsatzmöglichkeiten grundsätzlich eher begrenzt.
Die 2. Generation – ein wichtiger evolutionärer Schritt für die automatische Textgenerierung
Das Berliner Startup 2txt hat sehr viel Know-how im Bereich der Computerlinguistik aufgebaut und eine rein algorithmische Textgenerierung entwickelt, die in der Lage ist aus Daten und Begriffen vollautomatisch hochwertige Texte – ohne Verwendung von Templates – zu generieren.
Vereinfacht gesagt hat 2txt die deutsche Sprache teilweise in einen Algorithmus überführt. Templates waren somit Geschichte und dieses erste echte, regelbasierte Sprachmodell war und ist in der Lage völlig neue Use Cases, quasi out-of-the-box, zu realisieren. Jeder einzelne Text wird auf der Basis einer programmierten, allgemeinen Grammatik sowie themenspezifischen Wortsammlungen und Ontologien in Realtime generiert.
Die 3. Generation – KI-Sprachmodelle bringen den Big Bang für die automatische Textgenerierung
Auf der Grundlage von künstlichen, neuronalen Netzen und Machine Learning ist zunächst GPT-2 und später GPT-3 entstanden. GPT-3 ist ein KI-Sprachmodell und kann Unmengen an Textdaten erfassen und analysieren. Es erkennt dabei Strukturen, Zusammenhänge und Kontexte und nimmt Gewichtungen auf statistischer Grundlage vor.
So kann man dem System z.B. die Frage stellen „Wer ist Olaf Scholz?“ und man wird die Antwort erhalten, dass Olaf Scholz ein deutscher Politiker und momentan Bundeskanzler ist. Dass Olaf Scholz 170 cm groß und sein Bruder Arzt ist, kann die KI auch erkennen. Aber es wird seltener in Texten erwähnt und deswegen untergewichtet.
GPT-3 kann aber auch einen begonnenen Satz sinnvoll beenden. Lautet der Input beispielsweise „Olaf Scholz und Angela Merkel…“, so ergänzt das KI-Sprachmodell den Satz in etwa so: „Olaf Scholz und Angela Merkel haben beide das Amt des deutschen Bundeskanzlers ausgeübt. Angela Merkel vom 22. November 2005 bis zum 08. Dezember 2021 und Olaf Scholzvom…“ GPT-3 führt also ein Thema fort und wird bei Bedarf zum automatischen Copywriter, der komplette Beiträge zu einem Thema verfassen kann.
Das ist aber noch lange nicht alles. Frage ich GPT-3 z.B. nach den größten chinesischen Unternehmen, präzisiert die KI zunächst selbständig die Fragestellung („…größte chinesische Unternehmen nach Umsatz…“) und erstellt dann ein Ranking.
Das System kann mit mir aber auch in einen Dialog über chinesische Unternehmen treten oder eine Tabelle über den Umsatz pro Mitarbeiter der größten chinesischen Unternehmen erstellen. Und wenn mir das alles gefällt, kann GPT-3 aus diesen Inhalten auch noch den HTML-Code für eine entsprechende Website ausgeben. Denn Programmiersprachen sind für KI-Sprachmodelle auch nur Sprachen in Textform.
KI-Sprachmodelle wie z.B. GPT-3 verfügen über eine Reihe von Skills. So können sie Texte vereinfachen, zusammenfassen und übersetzen. Darüber hinaus können sie dokumentieren, chatten, Q&A Listen erstellen, Keywords generieren, Bilder beschreiben und wiederum aus Beschreibungen Bilder erzeugen. Sie können zudem Tabellen erstellen, Code analysieren und Code (z.B. XML) in natürliche Sprache umwandeln.
Der Haken an der Sache
Wie bereits erwähnt arbeiten KI-Sprachmodelle mit Statistiken und kommen über statistische Wahrscheinlichkeiten zu ihren Ergebnissen.
Statistik-basierte Algorithmen haben aber weder ethische Leitplanken noch ein Gefühl für Wahrheit, oder für logische Brüche in einem Text. Deswegen kann es passieren, dass ein KI-Sprachmodell Texte erstellt, die unseren Vorstellungen massiv widersprechen, die Ergebnisse gelegentlich nicht ganz „stubenrein“ sind oder manchmal in originelle, aber irritierende Fantasien abgleiten.
Die Entwickler der diversen KIs arbeiten an entsprechenden Verbesserungen, Filtern etc. Das Problem ist aber sehr komplex und es wird sicher noch eine Weile dauern, bis diese Probleme komplett gelöst sind. De facto ist die unkontrollierte Weiterverarbeitung von KI-Texten also ein Risiko. Damit wird der Einsatz in vielen, vor allem kommerziellen Bereichen, schwierig. Der Einbau einer menschlichen Abnahmestufe wäre das Mindeste, um das Risiko beherrschbar zu machen. Der potenziell enorme Effizienzgewinn wird dadurch aber deutlich eingebremst.
Die Lösung
Die ersten beiden Generationen der automatischen Textgenerierung können sehr viel weniger als die KI-Sprachmodelle und das Skills-Gap wird mit steigendem Tempo größer. Dennoch haben diese „alten“ Lösungen einen großen Vorteil: Sie sind berechenbar und machen so gut wie keine inhaltlichen Fehler. Der Sprachstil kann vorgegeben werden, ebenso die Verwendung einer bestimmten Terminologie.
Insbesondere die sehr flexible Lösung der zweiten Generation kann in Verbindung mit einem aktuellen KI-Sprachmodell zu einer extrem leistungsfähigen und inhaltlich sicheren Lösung kombiniert werden. Die Schwächen und Unwägbarkeiten werden gebändigt und damit schon jetzt kommerziell nutzbar gemacht. Die Ergebnisse erster Umsetzungen sind faszinierend. Damit ist eine neue Lösung für die automatisierte Erstellung von digitalem Content in der Welt, an der vielleicht schon bald kein Weg mehr vorbei geht.