INSIGHTS Research

In der Community des maschinellen Lernens gibt es viel Aufregung um Sprachmodelle (LMs – language models), neuronale Netzwerke, die darauf trainiert sind, die Feinheiten von Sprache, Semantik und Grammatik zu „verstehen“. Sie haben die Verarbeitung natürlicher Sprache (NLP) revolutioniert. In diesem Beitrag behandeln wir, was Sprachmodelle sind, was sie leisten können und welche ethischen Implikationen ihre Verwendung hat, die wir als Gemeinschaft berücksichtigen müssen.

LMs wandeln Sätze in numerische (Vektor-)Darstellungen um, die anschließend als Eingaben für ein traditionelleres maschinelles Lernmodell, wie z. B. Klassifizierung oder Regression, verwendet werden. Dies geschieht, indem sie die statistischen Verteilungen von Wörtern in Sätzen modellieren; sie sind darauf programmiert, die wahrscheinlichsten Wörter an einer bestimmten Position in einem Satz vorherzusagen. Dabei berücksichtigen sie den Kontext. Das LM leistet Schwerstarbeit, um nützliche und relevante Repräsentationen der Sprache zu finden, indem es die effizienteste Repräsentation der Bedeutung eines Satzes mit einer Handvoll reeller Zahlen verwendet.

Unter Nutzung dieses Ansatzes stellte die Einführung von BERT (Bidirectional Encoder Representations from Transformers) im Jahr 2018 durch Google-Forscher [1] einen ernsthaften Paradigmenwechsel dar. Es übertraf die bisherigen State-of-the-Art-LMs bei elf Sprachmodellierungsherausforderungen. BERT war 7,7 % besser als die Konkurrenz bei der GLUE-Satzmodellierungsmetrik, die das „Verstehen“ von Testsätzen durch die Modelle bewertet, was zuvor von einem Typ rekurrenter neuronaler Netze namens LSTM (Long-Short Term Memory) dominiert wurde. Ein großer Teil des Erfolges kann der Einführung einer leistungsstarken, neuen neuronalen Netzwerkarchitektur zugeschrieben werden, die als Transformator bekannt ist und die in anderen NLP-Frameworks, in der Computer Vision und in der Zeitreihenmodellierung weit verbreitet ist. Transformers sind heute eine hochmoderne neuronale Architektur, die aufgrund ihrer Rechen- und Dateneffizienz Leistungsgewinne gegenüber herkömmlichen Sequenzmodellen mit sich bringt.

Ein großer Vorteil der Verwendung von LMs ist, dass nur eine relativ kleine Menge an gelabelten Daten benötigt wird, um ein kontrolliertes Lernproblem zu lösen. Zum Trainieren des LMs werden rohe, unmarkierte Daten verwendet, z. B. der Text von Wikipedia-Artikeln oder Reddit-Posts – man braucht nur einen sehr großen Korpus an von Menschen geschriebenem Text. Sobald das LM die Sprache „versteht“, kann man mit einer Handvoll manuell gelabelter Beispiele eine Feinabstimmung für eine bestimmte Aufgabe vornehmen, um gute Ergebnisse zu erhalten. Zum Beispiel werden bei der Verwendung eines LM nur wenige Amazon-Rezensionen, die durch ihre „Sterne“-Bewertung gekennzeichnet sind, benötigt, um einen Produkt-Sentiment-Klassifikator zu trainieren. BERT wird inzwischen in der Anwendung für fast jede Google-Suchanfrage verwendet [2].

Nach BERT, das 340 Millionen Parameter hatte und auf etwa 16 GB Text trainiert wurde, gab es eine schnelle Abfolge von immer größeren LMs (mit stets zunehmenden Verbesserungen in den Satz-„Verstehens“-Metriken als auch in der beabsichtigten Aufgabenleistung). Ein paar Beispiele sind:

(2019) XLNet (340 Millionen Parameter, 126 GB an Daten)
(2019) MegatronLM (8,3 Milliarden Parameter, 174 GB an Daten)
(2020) T-NLG (17 Milliarden Parameter, 174 GB an Daten)
(2020) GPT-3 (175 Milliarden Parameter, 570 GB an Daten)

GPT-3 ist im Grunde der Stand der Technik und im Wesentlichen ein LM, das auf das gesamte Internet trainiert ist. Es ist ein extrem leistungsfähiges Werkzeug und wurde, da es öffentlich verfügbar ist, für einige verblüffende Anwendungen verwendet (siehe einige Beispiele: https://www.educative.io/blog/top-uses-gpt-3-deep-learning).

Unter anderem können GPT-3-basierte Modelle Codes für Websites generieren (HTML, CSS, JavaScript), textbasierte Erzählungen schreiben und „Albert Einstein“ auffordern, uns etwas über Astrophysik beizubringen [3]:

Ich: Bringen Sie mir etwas über schwarze Löcher bei.

Albert Einstein: Ein Schwarzes Loch entsteht, wenn ein Stern seinen gesamten Brennstoff verbrannt hat. Es gibt zwei Möglichkeiten, wie dies geschehen kann. Liegt die Masse des Sterns unter einer bestimmten Grenze, dem sogenannten Chandrasekhar-Limit, dann kann er in einer Supernova-Explosion vom Typ 1a enden. Liegt die Masse des Sterns jedoch über diesem Limit, kann er in sich selbst kollabieren. Der Grund dafür ist, dass der Stern durch seine eigene Schwerkraft in sich selbst hineingezogen wird. Er wird durch seine eigene Schwerkraft beschleunigt. Wenn eine Kraft auf etwas ausgeübt wird, das beschleunigt wird, erhöht sich sein Impuls. Je massiver das Objekt ist, desto mehr Kraft braucht es, um es am Abbremsen zu hindern.

Ich: Was ist Chandrasekhar Limit?

Albert Einstein: Das Chandrasekhar-Limit liegt bei 1,44 Sonnenmassen. Ein Objekt mit einer Masse kleiner als diese Grenze wird nicht zu einem Schwarzen Loch kollabieren. Wenn es schwerer ist als diese Grenze, dann wird seine Schwerkraft nicht stark genug sein, um gegen sich selbst zu kämpfen und es wird zu einem Schwarzen Loch kollabieren.

Ich: Wer ist Chandrasekhar?

Albert Einstein: Chandrasekhar war ein Wissenschaftler, der diese Massengrenze berechnet hat.

Ich: Wann ist Chandrasekhar gestorben?

Albert Einstein: Er starb 1995 im Alter von 84 Jahren.

Obwohl es sich hierbei eindeutig um eine äußerst beeindruckende Technologie handelt, gibt es anhaltende Bedenken hinsichtlich der ökologischen und ethischen Folgen einer solch leistungsstarken Software. Das Training eines BERT-Modells (das mittlerweile als relativ kleines LM gilt) verbraucht schätzungsweise so viel Energie wie ein Trans-Amerika-Flug [4]. Dies wird noch dadurch verschärft, dass das Modell oft einige Male trainiert wird, um verschiedene Hyperparameter auszuprobieren. Cloud-Computing-Unternehmen nutzen im Allgemeinen einige erneuerbare Energiequellen und/oder den Ausgleich von Kohlenstoffgutschriften. Der Großteil der verwendeten Energie ist jedoch nicht erneuerbar [5].

Darüber hinaus, und das ist möglicherweise noch besorgniserregender, stellen Bender et al. [5] fest, dass die Datensätze, die zum Trainieren von massiven LMs verwendet werden, rassistische, frauenfeindliche und „white-supremacist“-Ansichten stark überrepräsentieren, was ihrer Meinung nach ein Ergebnis der Vorherrschaft dieser Art von Text im englischsprachigen Internet ist. Modelle für maschinelles Lernen können nicht von ihren Trainingsdaten getrennt werden und replizieren im Wesentlichen die im Training beobachteten Muster. McGuffie & Newhouse [6] zeigen, dass es relativ einfach ist, mit GPT-3 große Mengen an grammatikalisch kohärentem, rassistischem oder extremistischem Text zu generieren, der dann z. B. dazu verwendet werden kann, schnell Foren und Messageboards zu bevölkern, mit der Absicht, menschliche Leser zu radikalisieren.

Die KI-Community muss sich noch auf Ansätze zur Lösung solcher Probleme einigen, aber der Konsens wird wahrscheinlich einen Vorstoß in Richtung besser kuratierter Trainingsdaten für leistungsfähige Modelle beinhalten. Google hat dies zum Beispiel bei bildbasierten Trainingsdaten vorangetrieben, indem es den Bilddatensatz „More Inclusive Annotations for People“ veröffentlicht hat. Dieser ändert die Beschriftung von Menschen in Bildern von (Person, Mann, Frau, Junge, Mädchen) zu (Person), mit einer sekundären Geschlechtsbeschriftung von (überwiegend weiblich, überwiegend männlich oder unbekannt) und einer Altersbeschriftung von (jung, mittel, älter oder unbekannt) [7]. Auf der NLP-Seite zielt der Datensatz „Translated Wikipedia Biographies“ darauf ab, einen Mechanismus zur Bewertung häufiger Gender-Fehler in der maschinellen Übersetzung bereitzustellen, wie z. B. die implizite grammatikalische Annahme, dass „Arzt“ sich auf einen Mann bezieht [8].

Im Arabesque KI-Beitrag dieses Monats haben wir uns mit der Sprachmodellierung befasst, einige leistungsstarke Beispiele für ihren Einsatz vorgestellt und einige Bedenken gegenüber ihrer Verwendung geäußert. Es besteht kein Zweifel daran, dass die LM-Technologie extrem leistungsfähig und effektiv bei den Aufgaben ist, für die sie trainiert wurde. Dennoch müssen wir uns als Gemeinschaft potenzieller ethischer Vorbehalte sowie der Entwicklung von Gefahren in der realen Welt bewusst sein.

Dr. Tom McAuliffe – mit Dank an Dr. Isabelle Lorge (beide Arabesque AI)

Referenzen

[1] Vaswani, A., N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin. „Attention is all you need.“ In NIPS. 2017.

[2] https://searchengineland.com/google-bert-used-on-almost-every-english-query-342193 (accessed 26/06/21)

[3] https://news.ycombinator.com/item?id=23870595 (accessed 26/06/21)

[4] Strubell, Emma, Ananya Ganesh, and Andrew McCallum. „Energy and policy considerations for deep learning in NLP.“ arXiv preprint arXiv:1906.02243. 2019.

[5] Bender, Emily M., Timnit Gebru, Angelina McMillan-Major, and Shmargaret Shmitchell. „On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?🦜.“ In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, pp. 610-623. 2021.

[6] McGuffie, Kris, and Alex Newhouse. „The radicalization risks of GPT-3 and advanced neural language models.“ arXiv preprint arXiv:2009.06807. 2020.

[7] Schumann, Candice, Susanna Ricco, Utsav Prabhu, Vittorio Ferrari, and Caroline Pantofaru. „A Step Toward More Inclusive People Annotations for Fairness.“ arXiv preprint arXiv:2105.02317. 2021.

[8] https://ai.googleblog.com/2021/06/a-dataset-for-studying-gender-bias-in.html (accessed 26/06/21)