Was weiß eine künstliche Intelligenz über Estland? Estnische Forscherinnen und Forscher wollten es genauer wissen. Sie nahmen sich sechs bekannte KI-Modelle vor und stellten diesen sehr spezielle Fragen.
Intelligentes Plaudern
Das bekannteste darunter ist wohl "Chat GPT", vom US-Unternehmen "Open AI" entwickelt, mit weltweit mehreren Hundert Millionen Nutzer/innen. "Gemini 3" entstand aus "Deep Mind" und "Google Brain". "Grok" wurde von Elon Musks "xAI" entwickelt. "Mistral" ist das bekannteste Sprachmodell europäischer Herkunft, entwickelt vom französischen "Mistral AI". Und "Claude" schließlich wurde von ehemaligen Mitarbeiter/innen von "Open AI" entwickelt.
Mit einbezogen wurde noch "Llama EstLLM", speziell von der TU Tallinn, der Universität Tartu und dem Institut für estnische Sprache entwickelt, um es mit estnischem Sprachmaterial zu trainieren.
Estnisch fragen
20 Fragen wurden insgesamt gestellt, fokussiert auf estnische Sprache und estnische Kultur. Zum Beispiel wurde gefragt, was Juri Lotman mit dem Begriff "Semiospähre" meinte, oder wie der erste Satz des Romans "Kevade" ("Frühling") von Oskar Luts vollständig lautet. Wie viele Vokale enthält das estnische Wort "Jäääär"?
Ja, früher einmal gab es Lexika, kiloschwere Bücher in mehreren Bänden. Im digitalen Zeitalter war es bisher oft geübte Gewohnheit, bei "Wikipedia" nachzuschauen (oder sogar dort als Autor/in eigenes Wissen mit anderen zu teilen). - Heute werden auf "dumme" Fragen aller Art vor allem sekundenschnelle Antworten erwartet - von einem imaginären Gegenüber nach Art einer "KI".
Dialektische Haushaltsgeräte
Kairit Sirts, außerordentliche Professorin für Sprachtechnologie am Institut für Informatik der Universität Tartu, berichtet allerdings auch von überraschenden Ergebnissen. Eigentlich seien sämtliche getesteten KI-Modelle auf einem ähnlichen Niveau. Doch Sirts zufolge habe man zum Beispiel nicht mit Groks Estnisch-Fähigkeiten gerechnet. Im Gegensatz zu mehreren Mitbewerbern wusste das Modell sogar, wie man „Staubsauger” im Võro-Dialekt sagt: pudsunudsija, natürlich.(ERR)
Das bedeutet wahrscheinlich noch nicht, dass sich südestnische Haushalte nun freuen können, wenn eine KI das Staubsaugen erledigt - und die estnische Forscherin gibt zu: niemand weiß, wie die verschiedenen Modelle trainiert werden.
Jedenfalls spiele auch die Formulierung der Fragestellung eine Rolle, welche Antworten darauf erfolgen - meint Forscherin Sirts. Und Tanel Alumäe, Professor für Sprachverarbeitung und Leiter des Labors für Sprachtechnologie an der Technischen Universität Tallinn betont, dass alle KI-Modelle gegenwärtig noch Fehler machen, und zwar mehr als ein Mensch. Er hat KI-Modelle sogar getestet, ob sie fähig sind Wörter zu deklinieren oder Grammatik zu korrigieren.
Estnische Intelligenz kennt Estland nicht?
Ist es überraschend, dass ausgerechnet das estnische KI-Modell am schlechtesten abschnitt? Hier wird das Training ausschließlich auf Basis offen zugänglicher Daten vollzogen, das gesamte Trainingsmaterial ist somit auch überprüfbar - aber das zur Generierung von Antworten verwendete Datenvolumen ist deutlich geringer - etwa 100-mal kleiner als das führender kommerzieller Modelle, heißt es. (ERR) Forscherin Kairit Sirts sieht es positiv und findet das Ergebnis sogar ermutigend, denn man plane ja noch eine Weiterentwicklung.
Ein anderer Teil der Rechtfertigung bezieht sich auf Schwierigkeiten mit dem Urheberrecht. "Um die Frage nach dem Anfangssatz des Romans 'Kevade' beantworten zu können, muss man den Roman gelesen haben; Bücher sind jedoch kompliziert, da sie dem Urheberrecht unterliegen“, erklärt Sirts. Infolgedessen sind viele grundlegende Werke der estnischen Kultur nicht in den estnischsprachigen Schulungsmaterialien enthalten, die Forschern bisher zur Verfügung stehen.
Ist das vielleicht ein Hinweis darauf, dass andere KI-Modelle ihren Stoff ohne Rücksicht auf Urheberrechte benutzen? Wissenschaftlerin Sirts sagt dazu nur: "Wir möchten offen und ehrlich vorgehen". Man wolle ja nicht mit den kommerziellen Technik-Giganten konkurrieren. Aber: „Mit einem offenen Modell, das auf unserem eigenen Server läuft, kann sichergestellt werden, dass Daten das Gebäude nicht verlassen. Dies ist in Szenarien mit sensiblen oder vertraulichen Informationen von Bedeutung.“ Schließlich gäbe es genug Gründe, sich nicht völlig abhängig zu machen von Anbietern, die dann ihre Daten in den USA oder China verarbeiten. Es sei wichtig, Fachwissen zu sammeln, damit nicht große Unternehmen die Preise bestimmen könnten. "Wenn wir in der Lage sind, ein offenes Modell zu nutzen, das derzeit das beste auf dem Markt ist, und dessen Leistung in estnischer Sprache zu verbessern, dann haben wir ein gewisses Maß an Kontrolle über die Situation“, fügte Sirts hinzu.(ERR)


Keine Kommentare:
Kommentar veröffentlichen