Durch eine Verstärkung – Setzen einer positiven Konsequenz oder Wegnahme einer negativen Konsequenz – kommt es nach der psychologischen Lerntheorie zu der Erhöhung der Auftretenswahrscheinlichkeit eines Verhaltens. Das Verstärkungslernen wird im Gehirn von den Basalganglien kontrolliert, überwachtes Lernen erfolgt im Cerebellum, während unüberwachtes Lernen in der Großhirnrinde lokalisiert ist.
Das synaptisches Lernen im Cortex, also das Verstärkungslernen, hängt vom Feedback aus tieferen Gehirnregionen ab. Im Cortex, der für höhere kognitive Funktionen zuständig ist, werden eintreffende Informationen bewertet und gefiltert, bearbeitet und dann in andere Gehirnareale geschickt. Solche Feedbackschleifen sind wichtig für das Lernen und das Anpassen an neue Sinnesinformation.
Ein Beispiel: Im Durchschnitt besitzen Katzen 24 Schnurrbarthaare (Vibrissae), je zwölf auf jeder Seite der Nase in vier horizontalen Reihen angeordnet, wobei diese nichts anderes sind als versteifte und verlängerte Haare, jedoch dreimal so tief in der Haut verankert wie normale Haare. Einige wachsen auch über den Augen, an den Wangen, am Kinn und an der Rückseite der Vorderbeine, und sie sind für die Existenz einer Katze so wichtig, dass wenn einer Katze ein Schnurrbarthaar ausfällt, es wieder nachwächst. Die Schnurrbarthaare der Katze dienen als Tastsinn und liefern wertvolle Information über die Umgebung. Der Cortex der Katze, der die taktile Information verarbeitet, optimiert dauernd seine Synapsenverbindungen, und zwar in einem Feedback-Schaltkreis, der mit den Schnurrbarthaaren zusammenhängt und eine bestimmte Region im Cortex aktiviert, die für Tastempfindungen zuständig ist.
1. Definition
Verstärkung ist ein Begriff aus der Verhaltenspsychologie. Es zeigt die Beeinflussung der Wahrscheinlichkeit des Auftretens von Verhaltensweisen durch Reize. Man unterscheidet zwischen positiver Verstärkung (z.B. durch Nahrung im Zustand des Hungers) und negativer Verstärkung (z.B. durch das Ausbleiben oder Nachlassen schmerzhafter Reize). Letztere ist von der Bestrafung zu unterscheiden.
In der Lerntheorie wird das Phänomen der Verstärkung unterschiedlich begründet: als eine Triebbefriedigung, als Erregungszunahme oder als Stiftung von Erwartungen (ohne Autor, 1999, zit. nach Foppa, 1965).
2. Definition
Das psychologische Wörterbuch beschreibt die Verstärkung als eine wesentliche Vorraussetzung zum Erlernen von Verhaltensweisen und deren Verfestigung im Verhaltensrepertoire.
Die Verstärkung ist ein Bestandteil der Verhaltenstheorie zum Abbau von Fehlverhalten und Aufbau erwünschten Verhaltens (vgl. Häcker & Stapf, 1998, S. 930).
3. Definition
Verstärkung ist ein zentraler Begriff in den Lerntheorien der Reiz-Reaktions-Theoretiker. Er wird dort als Maßnahme zur Lösung von Trieb- und Bedürfnisspannungen verstanden. Bezieht sich die Verstärkung auf einen primären Trieb (z.B. Futtergabe bei Hunger), spricht man von einem primären Verstärker. Auf primäre Verstärker reagiert jedes Lebewesen einer bestimmten Art ohne vorausgegangene Lernprozesse. Die sekundäre oder konditionierte Verstärkung ist dagegen erworben, d.h. sie verdankt ihre Wirkung einem Lernprozess aufgrund einer zeitweisen früheren Verbindung mit einem primären Verstärker. Solche sekundäre Verstärker sind z.B. die vielfältigen Arten von Lob, Tadel, Erfolg und Misserfolg bei der Auseinandersetzung mit Lernproblemen (Köck & Ott, 1976, S. 431f).
4. Definition
Das Wörterbuch der Erziehung befasst sich mehr mit den empirisch auffindbaren Gesetzmäßigkeiten der Verhaltensänderungen als Funktion der Verstärkung als mit dem Problem, warum eigentlich ein Verstärker verstärkend wirkt. Diskutiert werden in diesem Zusammenhang die triebreduzierende Wirkung (Hunger – Nahrung), der motivierende Anreiz (z.B. durch Spielzeug oder verbale Ermunterung) und die Informationsrückkopplung (Hinweis auf den Grad der Richtigkeit einer Reaktion, bezogen auf die Kriterien korrekter Aufgabenlösung), der Verstärker (vgl. Wulf, 1984, S. 390).
5. Definition
Auch andere Autoren sind der Auffassung, dass (positive) Verstärkung einen wesentlichen Einfluss auf das Verhalten von Menschen hat. Wenn ein hungriges Kind auf sein „Bitte-Sagen“ hin Nahrung erhält, so wird zunächst eine erwünschte Verhaltensform primär verstärkt. Nun kann die Formulierung „braver Junge“ mit der Nahrungsabgabe gekoppelt werden. Nach einigen Wiederholungen kann die Formulierung „braver Junge“ auch ohne Nahrungsabgabe zum „Bitte-Sagen“ führen. Die Aussage „braver Junge“ wirkt auf die Reaktion „bitte“ als sekundärer Verstärker (Popp, 1991, zit. nach Klausmeier & Ripple, 1973, S. 61ff).
Auch im Bereich der künstlichen Intelligenz spielt verstärkendes Lernen eine Rolle, wobei dies eine der aufregendsten Anwendungen darstellt, bei der Maschinen lernen, durch Erfahrungen zu lernen und ihre Entscheidungsfindung zu verbessern.. Reinforcement Learning ist eine Methode des maschinellen Lernens, bei der ein Agent in einer bestimmten Umgebung agiert und versucht, eine bestimmte Aufgabe zu erfüllen, wobei der Agent Informationen über den aktuellen Zustand der Umgebung wahrnimmt und Entscheidungen trifft, um Belohnungen zu maximieren oder Strafen zu minimieren. Durch diese Interaktion mit der Umgebung lernt der Agent, welche Aktionen zu positiven Ergebnissen führen und welche vermieden werden sollten.
Die Grundlage dieses Verstärkungslernens ist der so genannte Reinforcement Learning Algorithmus, wobei dieser Algorithmus eine Methode namens Q-Learning verwendet, um den Agenten zu trainieren. Q-Learning basiert auf der Idee, dass der Agent eine Q-Funktion entwickelt, die den erwarteten Nutzen einer Handlung in einem bestimmten Zustand angibt, so dass der Agent dann die Handlung mit dem höchsten erwarteten Nutzen auswählt und seine Q-Funktion auf der Grundlage der erhaltenen Belohnungen aktualisiert. Die Herausforderung beim Reinforcement Learning besteht darin, dass der Agent zu Beginn keine Informationen über die Umgebung hat und die beste Aktion durch Versuch und Irrtum erlernen muss. Dieser Prozess wird als Exploration bezeichnet, d.h. der Agent erkundet die Umgebung, indem er verschiedene Aktionen ausprobiert und die erhaltenen Belohnungen beobachtet. Mit der Zeit lernt der Agent, welche Handlungen zu positiven Ergebnissen führen und kann seine Entscheidungen entsprechend anpassen.
Ein Beispiel für verstärkendes Lernen ist das Training eines autonomen Fahrzeugs, das sich in einer Umgebung mit Straßen, Verkehrsschildern und anderen Fahrzeugen bewegt. Der Agent, der das Fahrzeug steuert, nimmt Informationen über den aktuellen Zustand der Umgebung wahr, z. B. die Position anderer Fahrzeuge, die Geschwindigkeit und Verkehrsschilder, und trifft auf der Grundlage dieser Informationen Entscheidungen wie Beschleunigen, Bremsen oder Abbiegen, um das Ziel zu erreichen. Während des Trainingsprozesses wird das autonome Fahrzeug mit Belohnungen und Strafen konfrontiert, d.h. wenn das Fahrzeug eine Aufgabe erfolgreich erfüllt, wie z.B. das Ziel ohne Unfall zu erreichen, erhält es eine Belohnung, wenn es jedoch einen Unfall verursacht oder gegen Verkehrsregeln verstößt, erhält es eine Strafe. Durch wiederholte Interaktion mit der Umgebung lernt das Fahrzeug, welche Aktionen zu positiven Ergebnissen führen und welche vermieden werden sollten.
Durch die Anwendung statistischer Methoden und Optimierungsalgorithmen können KI-Modelle die besten Aktionen für den Agenten identifizieren und ihn dabei unterstützen, seine Leistung im Laufe der Zeit zu verbessern. Ein wichtiger Aspekt des Reinforcement-Lernens ist die Balance zwischen Exploration und Exploitation, denn während der Exploration erkundet der Agent die Umgebung und probiert verschiedene Aktionen aus, um neue Informationen zu sammeln. Während der Exploitation nutzt der Agent sein bisheriges Wissen, um die beste Aktion auszuwählen, so dass ein guter Reinforcement-Lernalgorithmus eine ausgewogene Mischung aus Exploration und Exploitation finden muss, um optimale Ergebnisse zu erzielen. Obwohl das Reinforcement Learning große Fortschritte gemacht hat, gibt es immer noch Herausforderungen, wie z.B. die Skalierbarkeit des Algorithmus, d.h. wenn die Anzahl der Zustände und Aktionen in einer Umgebung sehr groß ist, kann es schwierig sein, eine optimale Lösung zu finden. Ein weiteres Problem ist der Bedarf an großen Mengen an Trainingsdaten, denn je mehr Daten der Agent sammeln kann, desto besser kann er lernen, was in einigen Anwendungsbereichen, in denen das Sammeln von Daten teuer oder zeitaufwändig ist, schwierig sein kann.
Literatur
Häcker, H. & Stapf, K. (1998). Dorsch Psychologisches Wörterbuch. Bern: Verlag Hans-Huber.
Köck, P. & Ott, H. (1994). Wörterbuch für Erziehung und Unterricht. Donauwörth: Verlag Ludwig Auer.
Ohne Autor. (1999). Brockhaus – Die Enzyklopädie, 19. Aufl., Band 23. Leibzig: Verlag Brockhaus.
Popp, M. (1991). Einführung in die Grundbegriffe der allgemeinen Psychologie. Basel: Verlag E. Reinhartdt.
Stangl, B. (2023, 23. Dezember). Verstärkendes Lernen im Bereich der künstlichen Intelligenz. roboter lexikon.
Wulf, C. (1984). Wörterbuch der Erziehung: München: Verlag Piper.