5 Okt, 2021

Complex Systems and the Challenges associated with them

INSIGHTS Research

By Leo Carlos-Sandberg, 05/10/2021

Hi, I’m Leo, an AI Researcher at Arabesque AI working in research and development. Specifically, I focus on our input data, analysing it, understanding its structure and processing it. I have a background in finance, computer science, and physics and have seen how all three disciplines deal with complex systems. This piece will give an overview of complex systems, their importance, and some associated challenges. I’ve written this overview to illustrate the difficulty of understanding financial markets and the need for highly sophisticated approaches.

Complex systems

Whether or not you realise it, your life has been impacted by complex systems. These systems are everywhere and lead to much of the complexity associated with decision making in the natural world. A complex system is a system composed of interacting components. Some well-known complex systems are the human brain (interacting neurons), social group structures (interacting people), gases (interacting particles), and financial markets (interacting market participants). Often, multiple different complex systems can be derived from a single system. Take, for example, financial markets; complex systems may be composed of traded assets (for stock price analysis), banks (for bankruptcy risk analysis), and non-market values with traded assets (for an investigation of the impact of ESG data on stock price).

Emergent behaviour

The construction of a complex system is often simple, merely composed of interacting components, furthermore in many cases these components and/or interactions are themselves simple in nature and well understood. However, even simple components with simple interactions can, at a large scale, exhibit a phenomenon known as emergent behaviour. Emergent behaviour can be seen as the complex behaviour of a system that is not immediately obvious from its individual interactions. A perfect example of emergent behaviour is illustrated in Conway’s Game of Life, a 2D grid where each square (cell) may be either black or white (alive or dead) based on the following rules:

1. Any live cell with two or three live neighbours survives.

2. Any dead cell with three live neighbours becomes a live cell.

3. All other live cells die in the next generation. Similarly, all other dead cells stay dead.

This game is given an initial configuration and then repeatedly iterated (with each iteration being a new generation) based on the above rules. This setup is relatively simple but can lead to the occurrence of some impressive emergent behaviour, as shown below. In fact, this game is Turing complete1, and from these simple rules, people have even been able to make the Game of Life within the Game of Life!

This emergent behaviour becomes important for real-world systems, though it can be benign, it may also be beneficial or harmful. An example of harmful emergent behaviour is ‘hot potato trading’ between high-frequency market markers. This behaviour causes a market maker to buy assets and then rapidly sell them to another market maker who repeats the process (similar to passing a hot potato between a group of people). This artificially increases the trading volume of the asset heavily affecting the market price. Some hypothesise that this behaviour was a significant contributor to the 2010 flash crash. More broadly, emergent behaviour can also be seen in financial markets in the form of regimes defining high-level market behaviours, such as bubbles.

Due to the potentially significant impact of these emergent behaviours, those participating in the markets should have methods incorporating these complexities to make well-informed decisions.

A popular approach to investigating emergent behaviour is through simulation, which is often done in two stages. First, a model of the system is created by building pieces of code to act as each component in the system, and allowing these components to exchange information. These types of models are referred to as agent-based models. These models can be given initial conditions and run, allowing for emergent behaviour to occur naturally in a system that is amenable to analysis (with its interactions and behaviours tracked). Second, due to the randomness associated with running these models (or the lack of knowledge on the initial conditions) to gather an idea of the system these models will be run many times (under different conditions) with the results aggregated. This approach is known as a Monte Carlo method.

Relation discovery

So far, we have been discussing systems under the assumption that we know how the components interact; however, in reality this is rarely the case. Interactions are often unknown and challenging to discover, with the naive perturbation methods (impacting one component to see how others react) being either impossible or immoral (for very good reason, it is illegal to intentionally crash a market to see the reaction). Because of this, practitioners typically rely on statistical inference methods (methods that use data or results from the system to infer structure and knowledge of the system) to determine the relationship between components. Inference methods are particularly useful when considering data that is often not directly associated with the stock price, and hence the interactions are harder to infer, such as ESG data.

Statistical inference of relationships between components relies on a measurable output of each component; taking an example system composed of US technology companies, one could use the stock price of each of these companies. This naturally takes the form of a time series2 that then represents the company’s state throughout time, multiple time series of this type can then be compared to explore how the components of a system interact throughout time.

For time series data, relationship discovery often takes one of two conceptual approaches. Either the similar movement of the series, or the predictive information content of the series. Here we will discuss these by briefly describing two popular and straightforward methods, Pearson correlation, for the former, and Granger causality, for the latter. Pearson correlation measures how similar the movement of two series are, i.e. if one increases by an amount over time, does the other also increase? A strong correlation is often taken to imply that two components are linked. However, as the adage goes, correlation does not equal causation, and many things with a high correlation are obviously not linked, such as the decrease in pirates and the increase in global warming. A potentially more robust approach to relationship discovery is Granger causality. This is a measure of how much the past of one series can be used to predict the future of another series, over the predictive power of that series’ own history, e.g. if a series X and Y are identical, there would be no Granger causality, but there would be correlation. This measure has a sense of direction, where one variable „causes“ another, and considers how much a series may predict itself. Both measures are quite simple, being based on linearity and bivariate systems, and many more simple and complex approaches exist.

Relationship patterns

Often statistical inference of relationships is discussed in the context of two variables, e.g. given X and Y, does one cause the other. However in reality it is unlikely that the approximation that a system is composed of only two variables, will hold. This is because most real-world systems have confounding variables (which is especially relevant when considering causation), that may affect both X and Y, e.g. a confounding variable Z may cause both X and Y, which can appear as X causing Y even though that is not the case. This makes statistical inference of causation and relationships within multivariate systems significantly more complex and challenging. These confounding variables need to be considered as the systems cannot be decomposed into bivariate ones.

To represent the relationship information of a multivariate system matrices are often used, frequently referred to as patterns preceded by the type of relationship being shown, e.g. causality pattern. An example of how a network of causality links can be encoded as a pattern is shown below3:




Time-varying relationships

Another level of complexity with real-world systems is that these relationships are frequently dynamic, changing in strength and even existence over time. Though this dynamic behaviour likely has logical and understandable causes, these may be occurring at such a low level as to not be viewable when modelling or analysing the system; for example, the investment strategy of an individual investor might change if that investor is about to go on holiday and wants to clear their positions, however investor’s vacation calendars are rarely public knowledge. Therefore, when discussing complex systems, it is likely that the components themselves could in theory be described by another system, and that these components’ behaviour is the emergent behaviour of that system. This abstraction (turning systems into components of larger systems) through introducing some level of randomness is necessary. If we were to build a true full model of a system it would require considering the entire universe and every particle in it, which is somewhat impractical.

Though systems do not exist in isolation many outside effects may be negligible or considered as noise, which, if kept at an appropriate level can be acceptable for a given objective. This type of abstraction can be seen in measures such as temperature: while technically a measure of particle excitement, its abstraction to a Celsius temperature (a simpler measure) is more appropriate for everyday use. Another example is in finance, where modelling the logic of every single investor may not be needed, and instead their actions may be taken as overall trends and behaviours, with deviations considered as noise. 

To transform statistical approaches for inference of static relationships into ones for time-varying relationships windowing is frequently employed. Windowing breaks the time series data into segments, where the aforementioned methods can be applied to each segment sequentially instead of to the whole series. This produces a new series, where each item in the series is the matrix of relationships for the system during that segment. However, this introduces its own issues with one wanting short windows to capture short term behaviour but longer windows providing more robust statistical estimation.  



The behaviour of these changing interactions (trying to find logic and predictability within it) is another area of research, adding even more complexity to these types of systems. 

Concluding remarks

In this blog, I have gone through some causes of complexity in understanding, modelling, and predicting complex systems, such as financial markets. It should now be apparent that financial markets are rife with complex, multi-level, and non-obvious behaviours and connections. The analysis of financial markets is by no means a solved problem. To gain a greater understanding of its complex and dynamic nature, advanced tools and techniques need to be developed and implemented. This type of advancement can be seen in the work done here at Arabesque AI.  


Footnotes:  

1: In principle a Turing complete system could be used to solve any computation problem [8]. 

2: A time series is a sequence of data points that occur consecutively over a time period.  

3: In the network diagram circles represent components of the system and arrows the causal links between them. In the causality pattern 0 represents no causality and 1 represents a causal link.  


References:  

McKenzie. R. H, 2017, Emergence in the Game of Life, blogspot, viewed 1 September 2021, <https://condensedconcepts.blogspot.com/2017/09/emergence-in-game-of-life.html >  

Bradbury. P, 2012, Life in life, youtube, viewed 10 September 2021, <https://www.youtube.com/watch?v=xP5-iIeKXE8> 

Court. E, 2013, ‘The Instability of Market-Making Algorithms’, MEng Dissertation, UCL, London 

Benesty. J, Chen. J, Hung. Y, & Cohen. I, 2009, ‘Pearson Correlation Coefficient’, Noise Reduction in Speech Processing, vol. 2,  pp. 1-4 

Granger. C, 1969, ‘Investigating Causal Relations by Econometric Models and Cross-Spectral Methods’, Econometrica, vol. 37, pp. 424-438 

Andersen. E, 2012, True Fact: The Lack of Pirates is Causing Global Warming, Forbes, viewed 2 September 2021, < https://www.forbes.com/sites/erikaandersen/2012/03/23/true-fact-the-lack-of-pirates-is-causing-global-warming/?sh=3a6520033a67 > 

Jiang. M, Gao. X, An. H, Li. H, & Sun. B, 2017, ‘Reconstructing complex network for characterizing the time-varying causality evolution behavior of multivariate time series’, Scientific Reports, https://doi.org/10.1038/s41598-017-10759-3 

Sellin. E, 2017, What exactly is Turing Completeness?, evin sellin medium, viewed 3 September 2021, <http://evinsellin.medium.com/what-exactly-is-turing-completeness-a08cc36b26e2> 

29 Sep, 2021

The Road to Net-Zero is Paved with Good Intentions – Can Carbon Taxes Reduce Emissions?

INSIGHTS Research

What is the socio-economic impact of carbon emissions? Carbon dioxide and other greenhouse emissions impose a burden on society and future generations, also financially. Most economic transactions today, however, are underestimating the impact of carbon emissions.

In the third part of this four chapter series, Isabel Verkes looks at carbon taxes as an additional mechanism to put a price on carbon emissions. Needless to say, adding new taxes are often unpopular. Yet, under some circumstances, people can directly benefit from carbon taxes. Whether carbon taxes can be effective to price carbon, and drive lower emissions, depends on a variety of factors. This piece gives on overview of when and how carbon taxes will (not) work.

To read the full article, click here.
To read part one of the series, click here.
To read part two of the series, click here.

22 Sep, 2021

The Road to Net-Zero is Paved with Good Intentions – Carbonomics: Regulated Markets And Beyond

INSIGHTS Research

Adopted in 1997, the Kyoto Protocol set the basis for the development of a carbon market with the goal of limiting and reducing GHG emissions of industrialised countries and economies, in accordance with agreed targets by each member. The creation and regulation of this market was thought as an instrument to facilitate signatories to comply with emission targets (‘Parties’ assigned amount’), or global ceilings for greenhouse gas emissions.

In part two of this four-part research series, Maria Belen Ahumada provides an overview of compulsory and voluntary carbon markets. She focuses on the European regulated carbon market as she walks us through the EU ETS, addressing the role of the government, the market structure, the main products of the primary and secondary market as well as the main supply and demand drivers of carbon price. In addition, Belen outlines some of the main differences between regulated and non regulated carbon markets and discusses useful final remarks as we approach COP 26.

To read the full article, click here.
To read part one of the series, click here.

14 Sep, 2021

The Road to Net-Zero is Paved with Good Intentions – The Promise and Peril of Pricing Carbon

INSIGHTS Research

Within a relatively short timeframe, an array of top-down regulatory initiatives have been introduced by policy-makers, including the proposed French Climate and Resilience Law, the UK Climate Change Act, as well as the recently adopted European Climate Law. These are accompanied by a range of mechanisms intended to internalize the cost of carbon emissions, such as carbon trading schemes, renewable energy certificates and carbon offsets, which have emerged as an important driver of climate action by the public and private sector alike. 

In this four-part research series, the Arabesque Research team explores the policy and market-based perspectives behind these emissions reduction measures, as well as the viability of carbon trading schemes, carbon taxation, as well as emissions offsets, within the context of the ongoing drive to reach net-zero.

In part one, Dr Inna Amesheva provides an introduction to the global carbon markets landscape, together with the underlying policy initiatives that underpin carbon trading regimes in key jurisdictions. She also outlines the main implementation mechanisms set out by the international climate change legal framework, as well as an overview of how this translates into private sector action and engagement. 

To read the full article, click here.

6 Sep, 2021

AI Engine für Jedermann

INSIGHTS Research

Von Sofia Kellogg, 6/09/2021

Wenn Sie mich vor vier Monaten gefragt hätten, was unüberwachtes Lernen ist und wie wir damit Modelle für maschinelles Lernen trainieren, hätte ich Sie mit einem leeren Blick bedacht. Mein Hintergrund ist Politikwissenschaft und Nachhaltigkeit mit einem allgemeinen Wissen über KI (engl. AI – Artificial Intelligence). Wenn ich allgemeines Wissen sage, meine ich damit das, was ich mir vorstelle, wenn ich an KI denke:

Abb. 1: KI in der Robotik (Quelle)

In meinen ersten Wochen habe ich mit den KI-Forschern und -Ingenieuren in unserem Team gesprochen, um besser zu verstehen, was KI genau ist und wie wir sie in der Arabesque-AI Engine einsetzen. Dank ihrer Anleitung verstehe ich jetzt, wie unsere AI Engine funktioniert (auf einem sehr hohen Niveau – ich bin noch lange keine Expertin). Wenn Sie Hilfe brauchen, um die AI Engine zu entschlüsseln, lesen Sie weiter. Ich hoffe, das wird Ihnen auf Ihrer Reise helfen.

Was ist KI?

Zunächst einmal: Was ist KI? Künstliche Intelligenz ist ein Programm mit der Fähigkeit zu lernen und zu denken wie ein Mensch. Maschinelles Lernen (ML) ist ein Teilbereich der KI. Von maschinellem Lernen spricht man, wenn ein Algorithmus in der Lage ist, bei einer bestimmten Art von Dateneingabe selbständig zu lernen. Ein Algorithmus ist eine Reihe von Instruktionen, die ein Computerprogramm ausführt. Algorithmen nehmen Eingaben entgegen und spucken Ergebnisse aus.

Was ist die Arabesque AI Engine?

Bei der Arabesque AI Engine handelt es sich um eine Gruppe von ML-Modellen, die Finanz- und Nicht-Finanzdaten aufnehmen und gemeinsam versuchen, Muster und Verhaltensweisen auf den Aktienmärkten zu analysieren. Bei diesem Prozess kann die AI Engine wesentlich mehr Daten analysieren als ein Mensch. Sie ist darauf ausgelegt, eine unvoreingenommene Analyse einer riesigen Datenmenge zu liefern und aus diesen Daten potenziell einzigartige Schlussfolgerungen zu ziehen. Außerdem wird die Komplexität der Daten erheblich reduziert, was zu einem besser skalierbaren Prozess führt. Wir verwenden eine Kombination aus überwachtem und unüberwachtem Lernen unter Einbeziehung von Finanzdaten und anderen Inputs, um die Wahrscheinlichkeit zu analysieren, mit welcher der Kurs einer Aktie in Zukunft steigt oder fällt.

AI Engine-Eingaben

Die AI Engine nimmt Daten auf und gibt die Signale (die Kursprognosen) aus, die wir bei der Portfoliokonstruktion verwenden. Wir geben eine Vielzahl von finanziellen und nicht-finanziellen Daten in die Engine ein. Wir betrachten zum Beispiel Kursrenditen, Nettogewinne, Gewinne pro Aktie und Indizes wie den S&P 500. Für unsere Eingabedaten benötigen wir mindestens 10 Jahre der gesamten Datenhistorie, um Vorhersagen treffen zu können. Darüber hinaus geben wir nicht-finanzielle Daten ein, wie Nachrichten und Medien (über Methoden der natürlichen Sprachverarbeitung („NLP“)) und ESG-Daten von unserem Schwesterunternehmen Arabesque S-Ray®. Alle diese Daten werden von den Algorithmen gleichbehandelt und die Modelle lernen auszuwählen, welche für das Universum des jeweiligen Vermögenswerts am relevantesten sind. Für jeden Vermögenswert, den wir analysieren möchten, sagt die Engine die Wahrscheinlichkeit voraus, ob der Preis eines Vermögenswerts im Vergleich zum entsprechenden Referenzindex steigt oder fällt.

Abb. 2: Beispiele für AI Engine Eingabedatensätze

Überwachtes Lernen

Beim überwachten Lernen nimmt ein Programm eine Eingabe auf und lernt, ihr eine Ausgabe zuzuordnen, die a priori bekannt ist. Rückkopplungsschleifen helfen bei der Anpassung der Ausgabe eines Modells. Zu diesem Zweck geben wir einem ML-Algorithmus eine Reihe von gekennzeichneten Daten, die als Trainingsbeispiel verwendet werden. Eine Einschränkung: Daten können immer noch verzerrt sein. Wenn ich ein Modell trainiere, um Katzen und Hunde zu klassifizieren, aber 99 % der Bilder, die ich dem Modell gebe, sind Hunde, dann wird das Modell eine Tendenz zu Hunden haben. Wir müssen sicherstellen, dass wir das Modell mit relevanten Informationen füttern. Im Folgenden sehen Sie ein Beispiel für die Klassifizierung mit überwachtem Lernen. Wir füttern den Algorithmus mit markierten Bildern von Hunden und Katzen, die er dann verwendet, um die Tiere zu kategorisieren und ihnen entsprechende Bezeichnungen zu geben.

Der Algorithmus ermittelt ein ML-Modell aus diesen Daten. Um es zu testen, geben wir ihm eine Eingabe, die es noch nie zuvor gesehen hat (z. B. ein unbeschriftetes Bild eines Hundes), um zu sehen, ob es die neuen Daten richtig sortiert und eine korrekte Ausgabe liefert.

Abb. 3: Training eines ML-Algorithmus
Abb 4: Testen eines ML-Modells

Wenn das Modell die neuen Daten nicht richtig sortiert, versuchen wir weiter, den Algorithmus zu verbessern, in der Regel durch mehr Training oder ein Training mit einem vielfältigeren Datensatz (z. B. Labradore, Spaniels und Pudel). Das Problem beim überwachten Lernen ist, dass es zu menschlichen Fehlern oder seltenen Vorkommnissen kommen kann (z. B. geben wir ein Bild von einem Labrador ein, das aber als Spaniel getaggt wird). Es kann auch sehr lange dauern, bis alle benötigten Daten beschriftet sind (obwohl wir in diesem Fall eine Menge süßer Hundefotos sehen würden, was einige unserer Teammitglieder überhaupt nicht stören würde).

Unüberwachtes Lernen

Unüberwachtes Lernen bedeutet, dass ein Computerprogramm eine Struktur in den Eingabedaten finden muss, weil sie nicht gekennzeichnet sind. Es gibt verschiedene Arten des unüberwachten Lernens, z. B. Clustering, Reinforcement Learning, Dimensionalitätsreduktion usw. Das nachstehende Beispiel zeigt das Clustering, bei dem wir dem ML-Algorithmus eine Reihe von Eingaben geben, der Algorithmus Ähnlichkeiten zwischen diesen Eingaben findet und das ML-Modell lernt, diese Eingaben zusammenzufassen. In der AI Engine haben wir Hunderte von Eingabemerkmalen und wir müssen versuchen, diese Datenpunkte zu verdichten. Wir verwenden unüberwachtes Lernen, um die Eingabedaten zu komprimieren.

Abb. 5: Verwendung von unüberwachtem Lernen zum Trainieren eines ML-Modells

Lebenszyklus eines ML-Modells

Es ist wichtig zu beachten, dass das Training eines ML-Modells kein einmaliger Prozess ist. Wir trainieren unsere ML-Modelle ständig neu, um ihre Genauigkeit zu testen. Im Folgenden ist der Lebenszyklus eines Modells dargestellt, der seine ständige Weiterentwicklung verdeutlicht.

  1. Umschulung des Modells: Alle paar Monate trainieren wir das gesamte Modell neu. Wir geben Daten ein und das Ergebnis ist das Modell.

  2. Modellprüfung: Wir nehmen das Modell und geben neue Daten ein, um die Genauigkeit des Modells zu testen.

  3. Implementierung des Modells: Wenn ein Modell unsere Validierungs- und Leistungstests bestanden hat, bringen wir es in die Produktion ein.

  4. Inferenzen des Modells: Täglich geben wir neue Daten ein und erstellen Vorhersagen.

Abb 6: Lebenszyklus eines ML-Modells

AI Engine (high-level) Architektur

Da wir nun wissen, wie ein ML-Modell funktioniert, wollen wir uns ansehen, wie wir diese Informationen in der AI Engine nutzen können. Nehmen wir an, wir wollen den Kurs einer Aktie analysieren. Dies sind die 3 Hauptschritte in der Engine-Pipeline:

  1. Merkmale extrahieren (kodieren): Wir nehmen zunächst unsere Eingabedaten, wandeln sie in eine Liste von Zahlen um und geben diese Liste an die Engine weiter. Am Anfang der Engine-Pipeline extrahiert sie wichtige Merkmale. Im Grunde genommen wird die lange Zahlenliste zu einer kürzeren Liste komprimiert (dies geschieht durch das unüberwachte Lernen, über das wir bereits gesprochen haben – genauer gesagt durch unsere Encoder-Modelle). Da wir viele Datenpunkte haben, die unsere Modelle verwirren könnten, versuchen wir, ihre Anzahl zu verringern, damit die Modelle die Analyse und die Vorhersage der Ergebnisse erleichtern und überflüssige Daten aussortieren können.

  2. Vorhersagen treffen (dem Modell dienen): Wir nehmen diese Liste von Zahlen und geben sie in die Modelle für maschinelles Lernen ein. Jedes Modell hat mit einem anderen Algorithmus für maschinelles Lernen gelernt. Ziel des Prozesses ist es, die Vorhersagegenauigkeit des Modells zu verbessern. Jedes der Modelle hat seine eigene Vorhersage, wie die Ausgabe aussehen wird.

  3. Kombinieren von Vorhersagen (Gesamtheit): Am Ende kombiniert das letzte maschinelle Lernmodell alle unsere Modellvorhersagen zu einer einzigen Vorhersage, die unser Signal ist. Dieses Signal stellen wir dem Team für die Portfoliokonstruktion zur Verfügung, das daraufhin investiert und es den Vermögensverwaltern zur Verfügung stellt.

Abb. 7: Die AI Engine, Quelle: Matteo Maggiolo

Abschließende Zusammenfassung

Ich hoffe, dass die Konzepte der KI und der AI Engine etwas weniger beängstigend sind als zu Beginn dieses Artikels. Hier sind einige wichtige Erkenntnisse:

  1. Künstliche Intelligenz ist ein Programm mit der Fähigkeit, ähnlich wie ein Mensch zu lernen und zu denken.
  2. Die AI Engine ist eine Gruppe von ML-Modellen, die Finanz- und Nicht-Finanzdaten aufnehmen und zusammen versuchen, Muster und Verhaltensweisen auf den Aktienmärkten zu analysieren.
  3. Beim überwachten Lernen nimmt ein Programm eine Eingabe auf und lernt, ihr eine Ausgabe zuzuordnen.
  4. Unüberwachtes Lernen bedeutet, dass ein Computerprogramm eine Struktur in den Eingabedaten finden muss, weil diese nicht gekennzeichnet sind.
  5. Der Lebenszyklus eines ML-Modells umfasst Umlernen des Modells, Testen des Modells und Inferenzen des Modells.
  6. Die AI-Engine extrahiert Merkmale, trifft Vorhersagen und kombiniert diese Vorhersagen, um ein Signal zu erzeugen.

Dieser Artikel deckt bei weitem nicht alle Komplexitäten der AI Engine ab und erklärt nur ansatzweise, wie die ML-Modelle funktionieren. Über jedes unserer Prognosemodelle könnte man ganze Forschungsarbeiten schreiben! Für einen KI-Neuling ist dies jedoch der richtige Ort, um anzufangen. Vielleicht versuche ich als Nächstes, ein paar Grundlagen des Programmierens zu lernen…

1 Sep, 2021

The Vegan Option Please – A look at vegan investing and climate impact

INSIGHTS Research

Despite the rising interest in veganism, the UN predicts that demand for animal-based products will still increase in line with rising populations, growing urbanisation and increased demand for more diversified diets from an emerging middle class. Consequently, they expect that meat and milk consumption will grow by 73 and 58 per cent, respectively, from 2010 to 20508. This continued increase in demand means that despite various harmful effects of meat production and consumption, the large-scale animal agriculture industry is here to stay.

In this blog, Martyna Szumniak and Dr. Roan du Feu explore the climate impact of vegan companies, meaning those that do not generate revenue from animal or dairy products and agriculture, and aim to answer the question „Is veganism a more sustainable choice when it comes to investing? „

Read the full blog here.

3 Aug, 2021

The Evolving Language of Climate Change

INSIGHTS Research

An article by Min Low

Since the birth of civilisation, language has been one of humanity’s greatest tools. Developing alongside human society, language has become more than simple communication and education, having the power to shape perspectives and attitudes towards the subject at hand.

As early as the 18th century, when shipbuilding and mining were consuming increasing amounts of wood [1], people in Europe have been conscious about resource sustainability. Then, in 1975, US scientist Wallace Broecker brought the term ‚global warming‘ into the public’s consciousness after including it in the title of one of his papers [2]. Public awareness of the issues around sustainability and climate change has existed for decades, even centuries, but has never been as widespread as it is today. This growing recognition can be explored by taking a deeper look at how the language of climate change has evolved and the importance that this has.

To read the full article, click here

3 Aug, 2021

Warum ist KI im Finanzwesen so schwierig?

INSIGHTS Research

Von Gavin Cheung, 03/08/2021

Das letzte Jahrzehnt hat eine Revolution im Bereich der KI erlebt, die auf Fortschritte im maschinellen Lernen (ML), Deep Learning und Computerarchitektur zurückzuführen ist.

Die jüngsten Entwicklungen wurden auf eine Vielzahl von Gebieten wie Computer Vision, Verarbeitung natürlicher Sprache, Wirkstoffforschung, Bioinformatik, autonomes Fahren und Weiterempfehlungssysteme angewandt.

Noch beeindruckender ist, dass einige dieser Systeme auf Ihrem privaten Laptop betrieben werden können. Die Abbildung unten zeigt zum Beispiel eine Demonstration von YOLOv3, das für die Objekterkennung in Echtzeit entwickelt wurde. Dieses System wird von einem komplexen Deep-Learning-Modell angetrieben, das auf seine Bedürfnisse zugeschnitten wurde, aber auf Ihrem Laptop ausgeführt werden kann.

Abbildung 1: Demonstration des Einsatzes von KI zur Objekterkennung.
Quelle: https://www.youtube.com/watch?v=BNHJRRUKMa4

Wenn man an die Schwierigkeiten denkt, die mit den Anwendungen in anderen Bereichen verbunden sind, stellt sich die Frage, was KI im Finanzbereich mit seiner erheblichen Komplexität und dem wirtschaftlichen Risiko, etwas falsch zu machen, leisten kann. Unser Ziel bei Arabesque AI ist es, KI für maßgeschneiderte, nachhaltige Investitionen zu nutzen. Wir implementieren KI in unserer Engine, die die Kursentwicklung von Aktien für einen bestimmten Zeitpunkt in der Zukunft prognostiziert.

In diesem Artikel gehen wir auf einige der Schwierigkeiten ein, mit denen wir bei der Anwendung des maschinellen Lernens im Finanzbereich konfrontiert sind.

Datenqualität

Das erste zu diskutierende Thema ist die Frage der Datenqualität. In der Finanzwelt ist die Fülle an Daten kein Problem. Daten können problemlos jede Sekunde aus einer Vielzahl von Quellen gesammelt werden, z. B. aus Instrumentenpreisen, Nachrichtenartikeln, Fundamentaldaten von Aktien, Social-Media-Beiträgen, makroökonomischen Daten, Satellitenbildern, ESG-Daten, Kreditkartentransaktionen, Besucherzahlen usw. Einige dieser Daten werden als strukturiert klassifiziert und haben typischerweise eine numerische Menge und eine klar definierte Struktur (z. B. Aktienkurse). Strukturierte Daten lassen sich relativ leicht in ein ML-Modell einspeisen. Andere, unstrukturierte Daten, weisen keine vordefinierte Struktur auf und erfordern häufig eine zusätzliche Verarbeitung, um aussagekräftige Informationen zu extrahieren (z. B. Nachrichtenartikel, Social-Media-Beiträge oder Bilder). Die Schwierigkeit der Informationsextraktion wird deutlich, wenn wir einen Nachrichtenartikel als Beispiel nehmen, in dem es um „Äpfel“ geht. Während ein Mensch relativ leicht erkennen würde, dass es in dem Artikel nicht um Apple (NYSE:AAPL), sondern um die Frucht „Äpfel“ geht, ist es nicht trivial, ein intelligentes System zu entwickeln, das diese Leistung nachbilden kann.

Die größere Sorge gilt nicht der Menge der Daten, sondern ihrer Qualität und ihrem Nutzen, insbesondere dem Signal-Rausch-Verhältnis des Datensatzes. In einem so komplexen System wie dem Aktienmarkt wird das Signal in der Realität stark vom Rauschen übertönt. Daher besteht unsere größte Herausforderung darin, ein intelligentes System zu entwickeln, das in diesem Meer aus Rauschen das aussagekräftige Signal extrahieren kann. Wir lösen diese Aufgabe in erster Linie mit mathematischen Werkzeugen und Techniken, um das Signal zuverlässig von stochastischen Schwankungen zu unterscheiden.

Datenqualität ist ein Thema in allen Bereichen der KI. Wie bereits erwähnt (z. B. Amazon), ist KI nur so gut wie die Daten, mit denen sie trainiert wird. Ein eher finanzspezifisches Problem, mit dem wir konfrontiert sind, hängt mit dem Zeitreihencharakter von Finanzdaten zusammen – d. h. Ereignisse am Dienstag müssen mit dem Wissen über andere Ereignisse am Montag analysiert werden.

Nichtstationarität

Der Zeitreihencharakter von Finanzdaten macht die Daten „nicht-stationär“. „Stationär“ bezieht sich auf Daten, die im Laufe der Zeit weitgehend gleich bleiben. Zum Beispiel könnten wir eine KI darauf trainieren, Bilder von Enten zu erkennen. Wenn wir der KI eine Reihe von Bildern von Enten zeigen, lernt sie, dass es sich wahrscheinlich um eine Ente handelt, wenn sie wie eine Ente aussieht, wie eine Ente schwimmt und wie eine Ente quakt. Das Wichtigste ist jedoch, dass die Bilder, egal ob sie aus dem Jahr 1900 oder 2000 stammen, ähnliche Merkmale enthalten, die von einer KI erkannt werden können. Diese Merkmale sind stationär und werden von der KI verwendet, um zu erkennen, was das Bild darstellt.

Vergleichen Sie dies mit Finanzdaten, die ein stark instationäres Verhalten aufweisen. Dieses Phänomen wird oft mit folgendem Mantra bezeichnet: „Die Performance der Vergangenheit ist keine Garantie für zukünftige Ergebnisse“. Es kann viele Muster geben, wie z. B. dass der Aktienkurs eines Unternehmens steigt, wenn die Sojabohnen-Futures fallen und die Anleihen steigen. Es gibt jedoch absolut keine Garantie dafür, dass dies in Zukunft wieder der Fall sein wird. Da KI ihre Entscheidungen meist auf der Grundlage von Ergebnissen aus der Vergangenheit trifft, stellt die sich ständig verändernde Natur des Finanzmarktes ein erhebliches Hindernis für jedes KI-System dar. Obwohl die Nicht-Stationarität ein großes Problem bei der Entwicklung eines KI-Systems darstellt, gibt es viele Möglichkeiten, ihre Auswirkungen zu verstehen und zu beheben. Dem begegnen wir zum Beispiel mit regelmäßigem Neutrainieren unserer Modelle sowie vielen anderen Schutzmaßnahmen.

Abbildung 2: Eine KI, die feststellt, ob es sich bei einem Bild um eine Ente handelt (oben), und eine KI, des Kurses entscheidet, ob eine Aktie gekauft oder verkauft werden soll (unten).

Selbstkorrektur

Wenn man davon ausgeht, dass man diese Probleme bewältigen kann, stellt sich als nächstes die Frage nach dem Zeitrahmen, in dem die KI profitable Ergebnisse erzielen kann. Fakt ist, dass der Finanzmarkt ein komplexes dynamisches System ist, das bei Sättigung alle profitablen Gelegenheiten automatisch korrigiert. Jedes vorhersehbare Muster, das eine KI finden könnte, wird möglicherweise irgendwann verwischt, wenn sich die Preise selbst korrigieren. Die einzige Lösung hierfür ist der Aufbau eines sich ständig weiterentwickelnden Systems, das mit dem dynamischen Markt Schritt halten kann. Bei Arabesque AI nehmen wir dieses Problem mit einem großen Team von Forschern in Angriff, um neue Ideen und modernste Technologien zu entwickeln, um ein KI-System für den Finanzbereich zu schaffen, das dem Test der Zeit standhalten kann.

26 Jul, 2021

Symmetries, supervision, and stocks: What can the world of computer vision teach us about applying AI to finance?

INSIGHTS Research

Dr Tom McAuliffe – Arabesque AI

In order to find an edge in hyper-competitive markets, at Arabesque AI we utilise ideas with their roots in a wide range of research areas, including computer science, maths, and physics. In this blog post we’ll consider computer vision (CV), a subfield of machine learning focused on the automated analysis of images. Artificial intelligence as a whole owes much of its success to breakthroughs in CV, and its broader relevance persists today.

During the early 2010s the video gaming industry was booming, contributing to an increased supply of affordable graphical processing units (GPUs). This brought the back-propagation algorithm back into prominence for neural network training – perfectly suited for the massively parallel capabilities of GPUs. The ImageNet challenge conceived by Li et al [1] in 2006, asks competitors to classify 14 million photographs into one of approximately 20,000 categories; by leveraging the power of GPUs, in 2012 the AlexNet [2] convolutional neural network (CNN) surpassed all competition. It achieved an error rate marginally over 15%, almost 11% better than its closest rival. This breakthrough in CV, powered by ImageNet, CNNs, and GPU-powered back-propagation was a paradigm shift for artificial intelligence.

In the pursuit of out-of-sample generalisation, classes of models have emerged that are very well suited to specific types of data. To understand why the CNN is particularly well equipped for the analysis of images, we need to take a closer look at its architecture – what is convolution?

Images are just grids of pixels. In order to generate useful (from an ML point of view) features from these pixels, one traverses a small matrix (filter) across the grid, from top left to bottom right, first performing a pixel-wise (or element-wise in matrix terms) multiplication of filter and target pixels, followed by summing the results (perform dot-products)[1]. This is schematically shown in Figure 1. Depending on the filters chosen, we can highlight specific features of the image, as shown in Figure 2 (in all figures we use 3-by-3 pixel filters). The ‘Sobel’ filters used in Figure 2 (b) and (c) correspond to highlighting abrupt changes in the horizontal and vertical directions respectively. The gradient (or ‘Scharr’) filter in (d) identifies object boundaries independent of direction. These are simple, linear examples. In a CNN, rather than specifying a-priori what the filter matrices should be, we allow the system to learn the optimal filters for the problem at hand. Rather than identifying horizontal edges, with enough complexity (neural network depth) a CNN learns to identify features as abstract as „cat ears” or „human faces”. This is achieved through hierarchical combinations of simpler features (like the horizontal-edge Sobel filter) noted above, akin to the human visual system [3].

Figure 1: Operation of a convolutional filter
Figure 2: Variously filtered images


In the years since AlexNet, we have seen increasingly highly performing architectures that, under certain conditions, transfer extremely well to other domains despite having been developed for more specialised subfields. Key examples of this are the CNN for CV and the Transformer for natural language processing. The transferability ultimately stems from shared symmetries in data. Convolutional models are so successful for CV applications because they utilise inherent symmetries present in natural images. As we saw in the simple example demonstrated in Figures 1 and 2, a 2D convolutional filter scans across a 2D image[2]. This very act of scanning a filter across the image is itself exploiting the fact that by definition, images emerge as strongly local groupings at multiple nested scales. Cat-ear pixels are very likely to be adjacent to additional cat-ear pixels, lending the possibility of an appropriately tuned filter specifically for cat-ears. As humans we have evolved to consider this concept as stating-the-obvious, but the same logic does not apply, for example, to rows and columns of a spreadsheet. Independent entries (rows) can be completely unrelated to nearby entries, and there is no importance to the ordering of the columns (features). If you were to randomly shuffle the columns of an image, the meaning would be completely lost.

Figure 3: Shuffled tabular data
Figure 4: Shuffled image data

In Machine Learning nomenclature, this type of resistance-to-shuffling is called translational symmetry. It is a property of images but is not tabular (spreadsheet) data. The ability of a model to exploit this symmetry is called an inductive bias.

And so we arrive at quantitative finance. At Arabesque AI we are particularly interested in identifying and analysing trends in capital markets, including stock prices. These prices form a time-series, another type of dataset that possesses translational symmetry. In this case the symmetry is due to natural (causal) order present in price movements. Time moves in one direction, so the ordering of our observations in the time dimension is important, and shuffling breaks continuity and causality. Rather than the 2D filters described previously, for a time-series we can perform exactly the same operation but with a 1D filter. Using a 1D-CNN in this way we can learn filters that, similarly to looking for abstract features like faces or cat-ears in an image, let us identify trends like ‘bull’ markets, ‘bear’ markets, and complex interactions between company fundamentals (revenue, profitability, liabilities, etc).

But why stop there? Rather than a 1D view of a time-series, which simply observes a value changing over time, approaches exist for fully converting a 1D time-series into a 2D image. We can then directly analyse these with CV techniques.

Figure 5: 2D timeseries

Following Wang & Oates [4], we can represent our time-series as a 2D space using the Gramian sum angular field (GSAF), Gramian difference angular field (GDAF), and the Markov transition field (MTF) transforms. We can also represent a time-series as a recurrence plot (RP), or by its Fourier transform (with real and imaginary components stacked so as to form a narrow image). These transforms are shown in Figure 5, implemented after Faouzi & Janati [5] for a historical returns time-series. Each transform shows its own idiosyncrasies and tends to highlight specific behaviours and features. Considering application to synthetic data in Figure 6, we take a closer look at how varying the frequency of a simple sine wave affects its GSAF transform.

Figure 6: The GSAF transform of a sine wave

With such transforms at our disposal, we can convert the time-series of equity prices, individual company fundamentals, and macroeconomic indicators (like US GDP, $ to £ exchange rate, etc) into 2D representations. This lets us consider slices of a market as a stack of images. For example, over the same 60-day period we could have images corresponding to each of asset daily returns, daily highest price, daily lowest price, with each pixel representing a single day. This makes up a data stack akin to the red, green, blue layers of a coloured digital image. Recent research from Zhang et al [6] applies a similar approach directly to a limit order book in order to aid predictions of financial instruments.

Machine learning is about transforming complicated data into useful representations. CV techniques are very powerful in learning the extremely complex interactions between pixels in an image of a cat, to the degree that they can distinguish it from those of a dog. This is achieved by learning to look for (and distinguish between) the abstract features of ‘dog ear’ vs ‘cat ear’. By exploiting the translational symmetries shared between time-series and natural images, CNNs are able to efficiently identify these complex interactions.

We have the choice to use such techniques in either a supervised or unsupervised learning paradigm. In the former, one may train a classification model to take such images as inputs, and predict a future price movement, similarly to classifying an image as containing a cat or a dog. In this setting we would provide a corresponding label to each image (or set of images), representing examples of the mapping from image(s) to label we wish to learn. In an unsupervised setting, we provide data but no labels. An auto-encoder model compresses the information stored in, for example, an image down to a handful of representative (hidden) features, which it then uses to reconstruct the input as accurately as possible[3]. Presented in Figure 7 is an example of a CNN auto-encoder trained to reconstruct GSAF-transformed features of a time-series. The input can be reconstructed well, meaning the low-dimensional representations we access through this model contain the same information as the original data.

Figure 7: GSAF reconstructions of a financial time-series dataset

Learning to find the most important parts of the dataset with unsupervised learning increases the efficiency with which we can handle data, reducing compute cost and permitting more algorithmic complexity. Convolutional architectures do this extremely well for images, and other data with translational symmetry. Identifying key features of a time-series with unsupervised learning remains an important research focus for us.

At Arabesque AI, we aim to forecast stock market movements using a wide range of models, but finding useful features of very noisy data remains a key challenge. We research and develop the powerful technology discussed in this post towards our core objective: accurately forecasting stock market movements with cutting edge machine learning.


[1] Note that this operation, performed in CNNs, is actually a cross-correlation rather than a convolution. The misnomer is due to the fact that a convolution operation flips the kernel before calculating the dot product, such that a copy of the filter is obtained from a convolution with a unit ‘impulse’. As CNNs are already a complex system, and we do not care about this specific property we drop the filter flipping, making the operation technically a cross-correlation. In the case of Figure 2, the symmetric filters mean that the convolution and cross-correlation operations are identical, but in CNNs the learned filters need not be symmetric.

[2] Note that the concept of ‘scanning’ is what is mathematically happening in this operation. This would be an inefficient algorithmic implementation.

[3] This is similar to the function of principal component analysis (PCA), widely used in quantitative finance to remove the market factor from a portfolio’s performance, but an auto-encoder can identify complex non-linear interactions that PCA does not see.


References

[1] Fei-Fei, L. Deng, J. Li, K. (2009). “ImageNet: Constructing a large-scale image database.” Journal of Vision, vol. 9 http://journalofvision.org/9/8/1037/, doi:10.1167/9.8.1037

[2] Krizhevsky, A. Sutskever I., Hinton, G.E. (2012). “ImageNet classification with deep neural networks,” Communications of the ACM, vol 60 (6), pp 84–90, doi:10.1145/3065386

[3] R. W. Fleming and K. R. Storrs. (2019). “Learning to see stuff,” Current Opinion in Behavioural Sciences, vol. 30, pp. 100–108.

[4] Wang, Z. and Oates T. (2015). “Imaging time-series to improve classification and imputation,” International Joint Conference on Artificial Intelligence, pp. 3939 – 3945.

[5] Faouzi, J. and Janati, H. (2020). “pyts: A python package for time series classification,” Journal of Machine Learning Research, 21(46): pp. 1−6.

[6] Zhang, Z. Zohren, S., Roberts, S. (2019) “DeepLOB: Deep convolutional neural networks for limit order books,” IEEE Transactions on Signal Processing, 67 (11): pp. 3001 – 3012.

6 Jul, 2021

Entwicklungen in der KI: Sprachmodelle

INSIGHTS Research

In der Community des maschinellen Lernens gibt es viel Aufregung um Sprachmodelle (LMs – language models), neuronale Netzwerke, die darauf trainiert sind, die Feinheiten von Sprache, Semantik und Grammatik zu „verstehen“. Sie haben die Verarbeitung natürlicher Sprache (NLP) revolutioniert. In diesem Beitrag behandeln wir, was Sprachmodelle sind, was sie leisten können und welche ethischen Implikationen ihre Verwendung hat, die wir als Gemeinschaft berücksichtigen müssen.

LMs wandeln Sätze in numerische (Vektor-)Darstellungen um, die anschließend als Eingaben für ein traditionelleres maschinelles Lernmodell, wie z. B. Klassifizierung oder Regression, verwendet werden. Dies geschieht, indem sie die statistischen Verteilungen von Wörtern in Sätzen modellieren; sie sind darauf programmiert, die wahrscheinlichsten Wörter an einer bestimmten Position in einem Satz vorherzusagen. Dabei berücksichtigen sie den Kontext. Das LM leistet Schwerstarbeit, um nützliche und relevante Repräsentationen der Sprache zu finden, indem es die effizienteste Repräsentation der Bedeutung eines Satzes mit einer Handvoll reeller Zahlen verwendet.

Unter Nutzung dieses Ansatzes stellte die Einführung von BERT (Bidirectional Encoder Representations from Transformers) im Jahr 2018 durch Google-Forscher [1] einen ernsthaften Paradigmenwechsel dar. Es übertraf die bisherigen State-of-the-Art-LMs bei elf Sprachmodellierungsherausforderungen. BERT war 7,7 % besser als die Konkurrenz bei der GLUE-Satzmodellierungsmetrik, die das „Verstehen“ von Testsätzen durch die Modelle bewertet, was zuvor von einem Typ rekurrenter neuronaler Netze namens LSTM (Long-Short Term Memory) dominiert wurde. Ein großer Teil des Erfolges kann der Einführung einer leistungsstarken, neuen neuronalen Netzwerkarchitektur zugeschrieben werden, die als Transformator bekannt ist und die in anderen NLP-Frameworks, in der Computer Vision und in der Zeitreihenmodellierung weit verbreitet ist. Transformers sind heute eine hochmoderne neuronale Architektur, die aufgrund ihrer Rechen- und Dateneffizienz Leistungsgewinne gegenüber herkömmlichen Sequenzmodellen mit sich bringt.

Ein großer Vorteil der Verwendung von LMs ist, dass nur eine relativ kleine Menge an gelabelten Daten benötigt wird, um ein kontrolliertes Lernproblem zu lösen. Zum Trainieren des LMs werden rohe, unmarkierte Daten verwendet, z. B. der Text von Wikipedia-Artikeln oder Reddit-Posts – man braucht nur einen sehr großen Korpus an von Menschen geschriebenem Text. Sobald das LM die Sprache „versteht“, kann man mit einer Handvoll manuell gelabelter Beispiele eine Feinabstimmung für eine bestimmte Aufgabe vornehmen, um gute Ergebnisse zu erhalten. Zum Beispiel werden bei der Verwendung eines LM nur wenige Amazon-Rezensionen, die durch ihre „Sterne“-Bewertung gekennzeichnet sind, benötigt, um einen Produkt-Sentiment-Klassifikator zu trainieren. BERT wird inzwischen in der Anwendung für fast jede Google-Suchanfrage verwendet [2].

Nach BERT, das 340 Millionen Parameter hatte und auf etwa 16 GB Text trainiert wurde, gab es eine schnelle Abfolge von immer größeren LMs (mit stets zunehmenden Verbesserungen in den Satz-„Verstehens“-Metriken als auch in der beabsichtigten Aufgabenleistung). Ein paar Beispiele sind:

  • (2019) XLNet (340 Millionen Parameter, 126 GB an Daten)
  • (2019) MegatronLM (8,3 Milliarden Parameter, 174 GB an Daten)
  • (2020) T-NLG (17 Milliarden Parameter, 174 GB an Daten)
  • (2020) GPT-3 (175 Milliarden Parameter, 570 GB an Daten)

GPT-3 ist im Grunde der Stand der Technik und im Wesentlichen ein LM, das auf das gesamte Internet trainiert ist. Es ist ein extrem leistungsfähiges Werkzeug und wurde, da es öffentlich verfügbar ist, für einige verblüffende Anwendungen verwendet (siehe einige Beispiele: https://www.educative.io/blog/top-uses-gpt-3-deep-learning).

Unter anderem können GPT-3-basierte Modelle Codes für Websites generieren (HTML, CSS, JavaScript), textbasierte Erzählungen schreiben und „Albert Einstein“ auffordern, uns etwas über Astrophysik beizubringen [3]:

Ich: Bringen Sie mir etwas über schwarze Löcher bei.

Albert Einstein: Ein Schwarzes Loch entsteht, wenn ein Stern seinen gesamten Brennstoff verbrannt hat. Es gibt zwei Möglichkeiten, wie dies geschehen kann. Liegt die Masse des Sterns unter einer bestimmten Grenze, dem sogenannten Chandrasekhar-Limit, dann kann er in einer Supernova-Explosion vom Typ 1a enden. Liegt die Masse des Sterns jedoch über diesem Limit, kann er in sich selbst kollabieren. Der Grund dafür ist, dass der Stern durch seine eigene Schwerkraft in sich selbst hineingezogen wird. Er wird durch seine eigene Schwerkraft beschleunigt. Wenn eine Kraft auf etwas ausgeübt wird, das beschleunigt wird, erhöht sich sein Impuls. Je massiver das Objekt ist, desto mehr Kraft braucht es, um es am Abbremsen zu hindern.

Ich: Was ist Chandrasekhar Limit?

Albert Einstein: Das Chandrasekhar-Limit liegt bei 1,44 Sonnenmassen. Ein Objekt mit einer Masse kleiner als diese Grenze wird nicht zu einem Schwarzen Loch kollabieren. Wenn es schwerer ist als diese Grenze, dann wird seine Schwerkraft nicht stark genug sein, um gegen sich selbst zu kämpfen und es wird zu einem Schwarzen Loch kollabieren.

Ich: Wer ist Chandrasekhar?

Albert Einstein: Chandrasekhar war ein Wissenschaftler, der diese Massengrenze berechnet hat.

Ich: Wann ist Chandrasekhar gestorben?

Albert Einstein: Er starb 1995 im Alter von 84 Jahren.

Obwohl es sich hierbei eindeutig um eine äußerst beeindruckende Technologie handelt, gibt es anhaltende Bedenken hinsichtlich der ökologischen und ethischen Folgen einer solch leistungsstarken Software. Das Training eines BERT-Modells (das mittlerweile als relativ kleines LM gilt) verbraucht schätzungsweise so viel Energie wie ein Trans-Amerika-Flug [4]. Dies wird noch dadurch verschärft, dass das Modell oft einige Male trainiert wird, um verschiedene Hyperparameter auszuprobieren. Cloud-Computing-Unternehmen nutzen im Allgemeinen einige erneuerbare Energiequellen und/oder den Ausgleich von Kohlenstoffgutschriften. Der Großteil der verwendeten Energie ist jedoch nicht erneuerbar [5].

Darüber hinaus, und das ist möglicherweise noch besorgniserregender, stellen Bender et al. [5] fest, dass die Datensätze, die zum Trainieren von massiven LMs verwendet werden, rassistische, frauenfeindliche und „white-supremacist“-Ansichten stark überrepräsentieren, was ihrer Meinung nach ein Ergebnis der Vorherrschaft dieser Art von Text im englischsprachigen Internet ist. Modelle für maschinelles Lernen können nicht von ihren Trainingsdaten getrennt werden und replizieren im Wesentlichen die im Training beobachteten Muster. McGuffie & Newhouse [6] zeigen, dass es relativ einfach ist, mit GPT-3 große Mengen an grammatikalisch kohärentem, rassistischem oder extremistischem Text zu generieren, der dann z. B. dazu verwendet werden kann, schnell Foren und Messageboards zu bevölkern, mit der Absicht, menschliche Leser zu radikalisieren.

Die KI-Community muss sich noch auf Ansätze zur Lösung solcher Probleme einigen, aber der Konsens wird wahrscheinlich einen Vorstoß in Richtung besser kuratierter Trainingsdaten für leistungsfähige Modelle beinhalten. Google hat dies zum Beispiel bei bildbasierten Trainingsdaten vorangetrieben, indem es den Bilddatensatz „More Inclusive Annotations for People“ veröffentlicht hat. Dieser ändert die Beschriftung von Menschen in Bildern von (Person, Mann, Frau, Junge, Mädchen) zu (Person), mit einer sekundären Geschlechtsbeschriftung von (überwiegend weiblich, überwiegend männlich oder unbekannt) und einer Altersbeschriftung von (jung, mittel, älter oder unbekannt) [7]. Auf der NLP-Seite zielt der Datensatz „Translated Wikipedia Biographies“ darauf ab, einen Mechanismus zur Bewertung häufiger Gender-Fehler in der maschinellen Übersetzung bereitzustellen, wie z. B. die implizite grammatikalische Annahme, dass „Arzt“ sich auf einen Mann bezieht [8].

Im Arabesque KI-Beitrag dieses Monats haben wir uns mit der Sprachmodellierung befasst, einige leistungsstarke Beispiele für ihren Einsatz vorgestellt und einige Bedenken gegenüber ihrer Verwendung geäußert. Es besteht kein Zweifel daran, dass die LM-Technologie extrem leistungsfähig und effektiv bei den Aufgaben ist, für die sie trainiert wurde. Dennoch müssen wir uns als Gemeinschaft potenzieller ethischer Vorbehalte sowie der Entwicklung von Gefahren in der realen Welt bewusst sein.

Dr. Tom McAuliffe – mit Dank an Dr. Isabelle Lorge (beide Arabesque AI)

Referenzen

[1] Vaswani, A., N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin. „Attention is all you need.“ In NIPS. 2017.

[2] https://searchengineland.com/google-bert-used-on-almost-every-english-query-342193 (accessed 26/06/21)

[3] https://news.ycombinator.com/item?id=23870595 (accessed 26/06/21)

[4] Strubell, Emma, Ananya Ganesh, and Andrew McCallum. „Energy and policy considerations for deep learning in NLP.“ arXiv preprint arXiv:1906.02243. 2019.

[5] Bender, Emily M., Timnit Gebru, Angelina McMillan-Major, and Shmargaret Shmitchell. „On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?🦜.“ In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, pp. 610-623. 2021.

[6] McGuffie, Kris, and Alex Newhouse. „The radicalization risks of GPT-3 and advanced neural language models.“ arXiv preprint arXiv:2009.06807. 2020.

[7] Schumann, Candice, Susanna Ricco, Utsav Prabhu, Vittorio Ferrari, and Caroline Pantofaru. „A Step Toward More Inclusive People Annotations for Fairness.“ arXiv preprint arXiv:2105.02317. 2021.

[8] https://ai.googleblog.com/2021/06/a-dataset-for-studying-gender-bias-in.html (accessed 26/06/21)