Seit Anfang des Jahres ist ChatGPT in aller Munde, auch bei Unternehmen. Was hat sich seitdem im Bereich der Künstlichen Intelligenz getan?
In der Öffentlichkeit hat ChatGPT einen Sputnik-Effekt ausgelöst. Seitdem verläuft die Entwicklung in zwei Richtungen. Auf der einen Seite stehen sehr große Sprachmodelle wie die von OpenAI, die sich nur mit sehr großem Aufwand berechnen lassen. Viele Unternehmen wollen sich in diesem Bereich engagieren. Auf der anderen Seite gibt es lokale Sprachmodelle, die auf gängige Hardware setzen und die hochgradig an die Bedürfnisse deutscher Unternehmen angepasst sind, zum Beispiel die nationale Rechtsprechung einzuhalten und auch unser ethisches Empfinden nachzubilden. Ich fokussiere sehr stark in diese Richtung für Anwendungen in Deutschland.
Um welche Anwendungen handelt es sich?
Es gibt Einsatzgebiete in Marketing oder PR, bei denen kein Schaden entsteht, wenn Daten außerhalb des europäischen Rechtsraums gelangen. Bei Anwendungen für die persönliche Kundenansprache muss sich ein Unternehmen hingegen überlegen, ob es Kundendaten einem Anbieter zum Beispiel in den USA senden möchte. Das betrifft aber auch andere sensible Daten, beispielsweise aus der Medizin. Sehr großes Potenzial sehe ich in der Softwareentwicklung, für die es bereits spezielle Open-Source-Sprachmodelle gibt. Im Service-Bereich eignen sich großen Sprachmodelle nicht, da ihnen das Inhouse-Wissen fehlt. Ich vermute, dass dort eher lokale Sprachmodelle zum Einsatz kommen werden. Und es gibt Anwendungsgebiete, die mir am Herzen liegen: die Vereinfachung von Prozessen im Recht und in der Medizin, etwa die Symptomerhebung.
Vor welchen Hürden stehen deutsche Unternehmen beim Einsatz von Sprachmodellen?
Eine Hürde ist die rechtliche Frage, ob man mit einem Anbieter zusammenarbeiten möchte, der nicht nach europäischem Recht agieren muss. Außerdem sind aktuelle Sprachmodelle multilingual, und die Anzahl der Modelle, die Deutsch sprechen, ist auf sehr wenige Anbieter beschränkt. Leider hat auch das größte Open-Source-Modell LLAMA-2 von Meta nur einen Anteil von 0,17 Prozent an deutschsprachigen Daten. Das bedeutet, dessen Antworten haben einen Bias für die englische Sprache und dem darin gesammelten Wissen. Die dritte Hürde sehe ich in nötigen Beschränkungen. Modelle dürfen keine rassistische Sprache oder gefährliche Informationen ausgeben, abhängig auch von nationalen Gesetzgebungen. Wir benötigen daher dringend ein deutschsprachiges, kommerziell nutzbares Open-Source-Modell, das Unternehmen verwenden und auf die Bedürfnisse unseres Wirtschafts-, Wissenschafts- und Rechtsraums anpassen können. Ich plädiere für ein Investment des Staates und der Unternehmen in ein kommerziell nutzbares Open-Source-Modell. Alternativ könnte die Politik Projekte mit dem Ziel fördern, ein Sprachmodell mitsamt Trainingsdaten und Anpassungsmöglichkeiten zu schaffen.