Reinforcement learning bzw. bestärkendes oder verstärkendes Lernen ist ein Oberbegriff für eine Reihe von Methoden des maschinellen Lernens, bei denen ein System, etwa ein Roboter, den Nutzen von Aktionsabfolgen bestimmt.
Reinforcement Learning ist somit ein Bereich des maschinellen Lernens, in dem Algorithmen intuitiv und durch Experimentieren lernen sollen, wie ihre Umgebung beschaffen ist und welche Regeln gelten, ähnlich wie auch ein Kind die Welt entdeckt und merkt, was funktioniert und was nicht. Derzeit wird vor allem untersucht, wo und weshalb existierende Reinforcement Learning-Algorithmen an ihre Grenzen stoßen, um robuste Algorithmen, die zuverlässig leistungsfähig sind, zu entwickeln. In Anwendungsbereichen der Künstlichen Intelligenz wie hochautomatisierten Fahrzeugen, automatisierten Finanzhandelssystemen oder intelligenten Stromnetzen sind Zuverlässigkeit und stabile Leistungsfähigkeit unerlässlich. Daher ist es wichtig, Algorithmen unter möglichst realistischen Bedingungen zu entwickeln, sodass man etwa die Maschinen immer wieder neuen Umgebungen und unbekannten Situationen aussetzt, sie vor zahllose Entscheidungen stellt, um dann die Faktoren, die zum Erfolg oder Misserfolg geführt haben, herauszufinden. Eine zentrale Aufgabe ist dabei, die grundlegenden Logiken und Funktionen im Reinforcement Learning zu verstehen, um den Weg zu robust generalisierenden Methoden zu ebnen, wobei die Lösung dieser Aufgabe schließlich auch alle anderen Anwendungsfelder weiterbringen kann.
Reinforcement Learning in der Robotik
Reinforcement Learning ist ein besonders spannendes Feld der Robotik, denn es nutzt Kenntnisse des menschlichen Denkprozesses, um Roboter zu trainieren. Roboter lernen, Entscheidungen zu treffen, um maximale Belohnungen zu erzielen, sprich: maximalen Erfolg zu haben. Roboter streben danach, ihre Leistung zu optimieren und kontinuierlich zu verbessern. In einem interaktiven Trainingsprozess erlangt der Roboter Kenntnisse darüber, welche Handlungen dazu führen, eine Aufgabe zu lösen und welche nicht. Direktes Feedback belohnt oder bestraft den Roboter für jede Handlung. Im Verlauf dieses interaktiven Prozesses entwickelt der Roboter ein trainiertes neuronales Netzwerk, ähnlich wie der Mensch durch Erfahrung lernt und Synapsen bildet. Der gesamte Workflow des Reinforcement Learning ist also ein iterativer Lernprozess.
Zu diesem Zweck benutzt man u. a. die Theorie der Markow-Entscheidungsprobleme. Heise online berichtet am 21. Februar 2016, dass künstliche Intelligenz dabei auch moralisches Handeln lernen soll, d. h., man will Robotern moralisches Handeln beibringen. Roboter sollen dabei aus alltäglichen Geschichten lernen, wie sie ihre Ziele mit angemessenen Mitteln erreichen. Diese Form des Lernens hat den Vorteil, dass in solchen Geschichten vor allem jene Strategien belohnt werden, die langfristig den größten Erfolg versprechen. Solche Geschichten könnten etwa davon handeln, für einen kranken Menschen Medizin in einer Apotheke zu besorgen, wobei das System nun mehrere Möglichkeiten, etwa das Erwünschte zu stehlen oder Geld am Automaten zu holen, sich in der Apotheke höflich anzustellen und das Medikament legal zu erwerben. Das eingebaute Belohnungssystem honoriert nur Handlungen, die herrschenden Konventionen entsprechen. Prämisse ist dabei dass in den Geschichten und Erzählungen einer Gesellschaft das Regelwerk für einen menschlichen Umgang miteinander enthalten ist, aus denen man lernen kann, sich in unterschiedlichen Situationen wie ein menschliches Wesen zu verhalten.
Siehe dazu die Geschichten zu moralischen Dilemmata.
Literatur
Stangl, B. (2023, 10. Mai). Fußballspielende Roboter . Soziale Robotik.
https://sozialerobotik.stangl.wien/fussballspielende-roboter/
Sutton, R. & Barto, A. (1998). Reinforcement Learning: An Introduction. Cambridge, MA; MIT Press.
https://www.futura-sciences.com/de/diese-humanoid-roboter-liefern-beim-fussball-hoechstleistungen-ab-sie-dribbeln-und-schiessen-wie-ein-mensch_13374/ (23-05-10)
https://www.it-daily.net/glossar?gid=219 (24-02-06)