Forschungsprojekt Open-GPT-X veröffentlicht großes KI-Sprachmodell

Quelle: Fraunhofer IAIS 3 min Lesedauer

Anbieter zum Thema

Das große KI-Sprachmodell des Forschungsprojekts Open-GPT-X steht ab sofort auf Hugging Face zum Download bereit: Teuken-7B wurde von Grund auf mit den 24 Amtssprachen der EU trainiert und umfasst sieben Milliarden Parameter. Das kommerziell einsetzbare Open-Source-Modell steht damit für eigene KI-Anwendungen zur Verfügung.

Sprachverteilung von Teuken-7B-v0.4: Neben Code enthält Teuken-7B-v0.4 ca. 50 Prozent nicht-englischen Text aus 23 europäischen Ländern und nur ca. 40 Prozent englische Pretraining-Daten. Damit unterscheidet sich Teuken-7B-v0.4 von den meisten bisher verfügbaren mehrsprachigen Modellen.(Bild:  Fraunhofer IAIS)
Sprachverteilung von Teuken-7B-v0.4: Neben Code enthält Teuken-7B-v0.4 ca. 50 Prozent nicht-englischen Text aus 23 europäischen Ländern und nur ca. 40 Prozent englische Pretraining-Daten. Damit unterscheidet sich Teuken-7B-v0.4 von den meisten bisher verfügbaren mehrsprachigen Modellen.
(Bild: Fraunhofer IAIS)

"Im Projekt Open-GPT-X haben wir in den vergangenen zwei Jahren mit starken Partnern aus Forschung und Wirtschaft die grundlegende Technologie für große KI-Fundamentalmodelle erforscht und entsprechende Modelle trainiert. Wir freuen uns, dass wir jetzt unser Modell ‚Teuken-7B‘ weltweit frei zur Verfügung stellen und damit eine aus der öffentlichen Forschung stammende Alternative für Wissenschaft und Unternehmen bieten können", sagt Prof. Dr. Stefan Wrobel, Institutsleiter am Fraunhofer IAIS. "Unser Modell hat seine Leistungsfähigkeit über eine große Bandbreite an Sprachen gezeigt, und wir hoffen, dass möglichst viele das Modell für eigene Arbeiten und Anwendungen adaptieren oder weiterentwickeln werden. So wollen wir sowohl innerhalb der wissenschaftlichen Community als auch gemeinsam mit Unternehmen unterschiedlicher Branchen einen Beitrag leisten, um den steigenden Bedarf nach transparenten und individuell anpassbaren Lösungen der generativen künstlichen Intelligenz zu adressieren."

Multilingual trainiert

Das Balkendiagramm zeigt die Leistung von Teuken-7B-instruct-research-v0.4 in den multilingualen Benchmarks ARC-, HellaSwag- und TruthfulQA im Vergleich zu anderen Open-Source-Modellen ähnlicher Größe. Die Balken zeigen die Performance für den jeweiligen Benchmark über 21europäische Sprachen gemittelt, und den Mittelwert aller drei Benchmarks. Bei dieser Auswahl von Benchmarks liegt Teuken-7B-instruct-research-v0.4 im Durchschnitt vor allen anderen Modellen.(Bild:  Fraunhofer IAIS)
Das Balkendiagramm zeigt die Leistung von Teuken-7B-instruct-research-v0.4 in den multilingualen Benchmarks ARC-, HellaSwag- und TruthfulQA im Vergleich zu anderen Open-Source-Modellen ähnlicher Größe. Die Balken zeigen die Performance für den jeweiligen Benchmark über 21europäische Sprachen gemittelt, und den Mittelwert aller drei Benchmarks. Bei dieser Auswahl von Benchmarks liegt Teuken-7B-instruct-research-v0.4 im Durchschnitt vor allen anderen Modellen.
(Bild: Fraunhofer IAIS)

Teuken-7B ist den Forschern zufolge aktuell eines der wenigen KI-Sprachmodelle, die von Grund auf multilingual entwickelt wurden. Es enthält ca. 50 Prozent nicht-englische Pretraining-Daten und wurde in allen 24 europäischen Amtssprachen trainiert. Es erweist sich über mehrere Sprachen hinweg in seiner Leistung als stabil und zuverlässig. Dies bietet insbesondere internationalen Unternehmen mit mehrsprachigen Kommunikationsbedarfen sowie Produkt- und Serviceangeboten einen Mehrwert. Die Bereitstellung als Open-Source-Modell erlaubt es Unternehmen und Organisationen, eigene angepasste Modelle in realen Anwendungen zu betreiben. Sensible Daten können im Unternehmen verbleiben.

Neuer Tokenizer reduziert Trainingskosten

Das Open-GPT-X-Team widmete sich neben dem Modelltraining auch zahlreichen Forschungsfragen, zum Beispiel wie multilinguale KI-Sprachmodelle energie- und kosteneffizienter trainiert und betrieben werden können.

Das Diagramm zeigt die zusätzliche Rechenleistung, die erforderlich ist, um einen nicht-englischen Text mit dem zu dem Sprachmodell zugehörigen Tokenizer zu verarbeiten (in Prozent im Vergleich zu Llama 3). Teuken-Modelle benötigen im Vergleich die geringste Menge an zusätzlicher Rechenleistung und verursachen somit den geringsten Aufpreis für multlinguale Anfragen an das Modell. (Bild:  Fraunhofer IAIS)
Das Diagramm zeigt die zusätzliche Rechenleistung, die erforderlich ist, um einen nicht-englischen Text mit dem zu dem Sprachmodell zugehörigen Tokenizer zu verarbeiten (in Prozent im Vergleich zu Llama 3). Teuken-Modelle benötigen im Vergleich die geringste Menge an zusätzlicher Rechenleistung und verursachen somit den geringsten Aufpreis für multlinguale Anfragen an das Modell. 
(Bild: Fraunhofer IAIS)

Dazu wurde im Projekt ein multilingualer "Tokenizer" entwickelt. Die Aufgabe eines Tokenizers ist es, Wörter in einzelne Wortbestandteile zu zerlegen – je weniger Token, desto (energie-)effizienter und schneller generiert ein Sprachmodell die Antwort. Der entwickelte Tokenizer führte zu einer Reduzierung der Trainingskosten im Vergleich zu anderen multilingualen Tokenizern, wie etwa Llama3 oder Mistral. Dies kommt insbesondere bei europäischen Sprachen mit langen Wörtern wie Deutsch, Finnisch oder Ungarisch zum Tragen. Auch im Betrieb von mehrsprachigen KI-Anwendungen können damit Effizienzsteigerungen erreicht werden.

Zugänglich über die Infrastruktur von Gaia-X

Das Verbundprojekt Open-GPT-X wurde im Rahmen des BMWK-Förderprogramms "Innovative und praxisnahe Anwendungen und Datenräume im digitalen Ökosystem Gaia-X" gefördert. Somit ist Teuken-7B auch über die Gaia-X-Infrastruktur zugänglich. Akteure im Gaia-X-Ökosystem können so innovative Sprachanwendungen entwickeln und in konkrete Anwendungsszenarien in ihren jeweiligen Domänen überführen. Im Gegensatz zu bestehenden Cloud-Lösungen handelt es sich bei Gaia-X um ein föderiertes System, über das sich unterschiedliche Dienstanbieter und Dateneigentümer miteinander verbinden können. Die Daten verbleiben stets beim Eigentümer und werden ausschließlich nach festgelegten Bedingungen geteilt.

Wie können Interessenten Teuken-7B nutzen?

Interessierte Entwicklerinnen und Entwickler aus der Wissenschaftscommunity oder Unternehmen können Teuken-7B bei Hugging Face kostenfrei herunterladen und in der eigenen Entwicklungsumgebung damit arbeiten. Das Modell wurde durch ein »Instruction Tuning« bereits für den Chat optimiert. Mit Instruction Tuning werden große KI-Sprachmodelle dahingehend angepasst, dass das Modell Anweisungen von Nutzerinnen und Nutzern richtig versteht, was vor allem für die Anwendung der Modelle in der Praxis relevant ist – zum Beispiel für den Einsatz in einer Chatanwendung.

(ID:50251681)

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung