Deep Learning bezeichnet spezielle Verfahren des maschinellen Lernens, die auf dem Erlernen einer Repräsentation von Daten in unterschiedlichen Abstraktionsschichten basieren, wobei solche tiefe Architekturen aus mehreren Schichten bestehen, die durch nichtlineare Operationen miteinander verbunden sind. Durch diese tiefe mehrschichtige Architektur kann, Schicht für Schicht, eine einfachere und abstraktere Darstellung der zugrunde liegenden Daten geschaffen werden. Vereinfacht gesagt, handelt es sich um einen Prozess, bei dem ein Computer sich selbst, durch Erfahrungen, Wissen aneignet. Dem Deep Learning liegt der Gedanke zugrunde, das menschliche Nervensystem nachzubilden und ähnlich wie ein menschliches Gehirn aus vorliegenden Daten zu lernen, wobei der Lernprozess dem von Kindern gleicht, die sich die Welt durch Versuch und Irrtum bzw. Abgleich der dabei gemachten Erfahrungen erschließen.
Zur Herstellung dieser Form einer künstlichen Intelligenz werden Methoden genutzt, die große Datenmengen analysieren können, wobei die Funktionsweise am Lernen im menschlichen Gehirn orientiert ist, indem auf Basis vorhandener Informationen das bisher Erlernte immer wieder mit neuen Inhalten verknüpft wird, d. h., dadurch weiter lernt. Daher ist die Maschine in der Lage, Prognosen oder Entscheidungen zu treffen und diese zu hinterfragen, wobei Entscheidungen bestätigt oder in einem neuen Anlauf geändert werden. Durch das kontinuierliches Hinterfragen der Entscheidungen erhalten die Informationsverknüpfungen bestimmte Gewichte, d. h., bestätigen sich Entscheidungen, erhöht sich deren Gewicht, werden sie revidiert, verringert es sich. Zwischen der Eingabeschicht und der Ausgabeschicht entstehen immer mehr Stufen an Zwischenschichten und Verknüpfungen, wobei über den eigentlichen Output die Anzahl der Zwischenschichten und deren Verknüpfung entscheidet. Im Unterschied zum rein maschinellen Lernen greift der Mensch in die Analyse der Daten und den eigentlichen Entscheidungsprozess nicht ein, sondern sorgt lediglich dafür, dass die Informationen für das Lernen bereitstehen und die Prozesse dokumentiert werden. Auch lässt sich im Nachhinein nicht mehr vollständig zurückverfolgen, auf Basis welcher genauen Muster eine Maschine eine bestimmte Entscheidung getroffen hat.
Die erste Generation der Forschung zur künstlichen Intelligenz zeigte, wie unerhört komplex es ist, das menschliche Alltagswissen abzubilden, insbesondere bei einfachen Wahrnehmungsaufgaben: Was macht ein menschliches Gesicht aus? Wie unterscheidet es sich von einer Maske oder dem Gesicht eines Affen? Hunderte von Entwicklern und Studenten verbrachten Jahrzehnte damit, per Hand all die Regeln einzutippen, die Computer brauchen könnten, um Gegenstände anhand ihrer Merkmale zu unterscheiden. Mit dem Versuch, das Lernen den künstlichen neuronalen Netzen zu überlassen, sah dieser Ansatz vor, künstliche Neurone in mehrere Ebenen einzuteilen. Gilt es beispielsweise ein Bild zu erkennen, registrierten etwa die Einheiten der ersten Ebene lediglich Helligkeitswerte der Pixel, während die nächste Ebene wiederum erkennen sollte, dass einige der Pixel zu Kanten verbunden sind, woraufhin die darauf folgende Ebene zwischen horizontalen und vertikalen Linien unterscheidet, bis schließlich jene Ebene erreicht wird, in der die Neurone Augen auseinanderhalten können, und das System weiß, dass in einem Gesicht typischerweise zwei davon auftauchen. Allerdings haben erst steigende Rechenleistung und das dramatische Anwachsen digitaler Datenbestände dem Deep Learning eine neue Chance gegeben. Man extrahierte aus Youtube zehn Millionen Standbilder und ließ diese anschließend in das „Google Brain“ – einem Netzwerk aus tausend Computern, das wie ein Kleinkind Informationen aller Art in sich aufsaugen soll, laufen. Mit einer Million simulierter Neurone und einer Milliarde simulierter Verbindungen übertraf das Google Brain jedes frühere Kunstnetzwerk um das Zehnfache. Die Bilderflut wurde vom Rechnernetz schließlich in drei Kategorien eingeteilt: menschliche Gesichter, menschliche Körper und Katzen.
Luc van Gool hat auf Basis des Deep Learning mit zwei Wissenschaftlern der ETH Zürich eine Software entwickelt, die aus hochgeladenen Fotos von Internetnutzern nicht nur das Alter und Geschlecht der auf dem Foto abgebildeten Person schätzt, sondern auch, wie attraktiv derjenige ist. Von einem „Hmm“ über „okay“ und „nice“ bis hin zu „hot“, „stunning“ und „godlike“ reicht dabei die Skala. Mehr als fünf Millionen Besucher hatte die Website seit der Freischaltung im Januar, denn alle wollten wissen, für wie schön der Computer sie und andere hielt. Van Gool et al. gaben dem Rechner 13000 Porträtfotos und 17 Millionen Bewertungen dieser Fotos, die aus eine Dating-App stammten, denn wer gut aussah, hatte dort bessere Bewertungen als jemand, der nicht so gut aussah. Was Schönheit ist, sollte der Rechner damit selbst herausfinden, und hat es letztlich auch geschafft.
Der AI-Forscher und Buchautor Peter J. Bentley warnt in einem Interview vor überzogenen Erwartungen im Hinblick auf künstliche Intelligenz, denn obwohl immer so interessante Techniken wie Deep Learning entwickelt werden und riesige Datenmengen sowie Rechenleistung in der Cloud genutzt werden können, gibt es in der AI-Forschung seit Jahrzehnten immer Zyklen von Boom und Enttäuschung. Zwar wird seiner Meinung nach das Maschinenlernen eine zunehmend wichtigere Rolle bei Dienstleistungen spielen, d. h., Systeme werden die Menschen besser verstehen und sogar in der Lage sein, deren nächsten Wünsche vorwegzunehmen. Doch um das menschliche Gehirn besser nachbauen zu können, müsste man erst einmal weitaus mehr darüber wissen, wie es funktioniert, denn wenn man heute etwa von künstlichen „neuronalen Netzen“ spricht, erweckt das den Eindruck, dass sie auf einem grundlegenden Verständnis des menschlichen Gehirns beruhen, aber das ist einfach nicht richtig. So ist Deep Learning wie eine Black Box, aber weil all seine Ergebnisse auf Zahlen basieren, sind sie für Menschen nicht nachvollziehbar, denn manche Probleme möchte man nicht nur irgendwie gelöst haben, sondern auch auf eine nachvollziehbare Weise.
Deep Learning in der Gehirnforschung
Seit Jahrzehnten maßen Neurowissenschaftler im Labor die Aktivität von Neuronen in lebenden Tieren, um die zugrundeliegenden Mechanismen zu ergründen, durch welche das Gehirn spezifisches Verhalten ermöglicht. Bisher war es lediglich möglich, die Konnektivität jedes Neurons in einem neuronalen Schaltkreis zu messen, wobei andere biologische Details, einschließlich der dynamischen Eigenschaften jedes Neurons, unberücksichtigt blieben. Lappalainen et al. (2024) konnten nachweisen, dass die neuronale Aktivität, die einer bestimmten Berechnung zugrunde liegt, durch experimentelle Messungen der Konnektivität eines biologischen neuronalen Netzwerks vorhergesagt werden kann. Dafür wurde neuronales Modellnetzwerk konstruiert, welches die experimentell ermittelte Konnektivität für 64 Zelltypen in den Bewegungsbahnen des Sehnervenkopfes der Fruchtfliege aufweist. Die Eigenschaften der Einzelneuronen und Einzelsynapsen sind jedoch bislang unbekannt. In der Folge wurden die Werte der unbekannten Parameter mithilfe von Techniken des Deep Learning optimiert, um eine Erfassung visueller Bewegungen durch das Modellnetzwerk zu ermöglichen. Das mechanistische Modell erlaubt detaillierte, experimentell überprüfbare Vorhersagen für jedes Neuron im Konnektom. In der Studie konnte nachgewiesen werden, dass die Modellvorhersagen mit experimentellen Messungen der neuronalen Aktivität in 26 Studien übereinstimmen. Die vorliegende Arbeit demonstriert eine Strategie, mit der aus Konnektivitätsmessungen detaillierte Hypothesen über die Mechanismen der Funktion neuronaler Schaltkreise abgeleitet werden können.
Um eine eigene Lehrveranstaltung zum Thema „Deep Learning“ wird ab dem Wintersemester 2022/23 der Masterstudiengang „AI Engineering“ der FH Technikum Wien ergänzt. Beispiele für Deep Learning seien „künstliche Intelligenzen von Google, die erstmalig die weltbesten Menschen in den Spielen ,Go‘ und ,Starcraft‘ geschlagen haben, oder die das 50 Jahre alte Problem der Proteinfaltung gelöst haben“, erklärt der Leiter des Studiengangs, Bernhard Knapp. Das Teilgebiet des maschinellen Lernens, das sich mit vielen Schichten von künstlichen Neuronen und großen Datenmengen beschäftigt, sei bislang schon fester Bestandteil des Curriculums gewesen gewesen und komme vor allem bei komplexen Herausforderungen wie Bilderkennung und bei menschlicher Sprache zum Einsatz.
Studierende beschäftigen sich während des Masterlehrgangs, der vier Semester dauert, etwa mit der Entwicklung integrierter Systeme wie Echtzeitbilderkennung, mit der Prozessierung menschlicher Sprachen, selbstfahrenden Autos, medizinischen AI-Unterstützungssystemen. Der Fokus liegt dabei auf Programmierung, Software Engineering, Algorithmen. „Häufig bemerkt man im Alltag gar nichts davon, doch es gibt heute kaum einen Bereich, in dem Artificial Intelligence nicht relevant ist“, sagt Knapp. Entsprechend groß sei mittlerweile die Nachfrage auf dem Arbeitsmarkt nach Experten in diesem Fachgebiet.
Definition: Eine spezialisierte Form des maschinellen Lernens, bei der das künstliche neuronale Netz in einer hierarchischen Struktur aufgebaut ist. Deep Learning bezeichnet quasi ein „tiefes“ neuronales Netz. Es handelt sich um eine Schlüsseltechnologie, die maßgeblich an den Fortschritten von AI in den letzten Jahren beteiligt ist.
Kurioses: Ein sogenannter Experte hat übrigens eine interessante Auffassung von deep learning, wenn er zum Thema learning-by-doing schreibt: „Dabei war es immer schon so, dass wir durchs Tun lernen und dass gerade sogenanntes Deep Learning meistens etwas Schwieriges ist, das eigene Erfahrungen, Rückschläge und Lernen aus Fehlern beinhaltet.“
Literatur
Hinton, G., Osindero, S. & Teh, Y.(2006). A fast learning algorithm for deep belief nets. Neural Computation, 18, 1527-1554.
Jones, N. (2014). The learning machines. Nature, 505, 146-148.
Lappalainen, Janne K., Tschopp, Fabian D., Prakhya, Sridhama, McGill, Mason, Nern, Aljoscha, Shinomiya, Kazunori, Takemura, Shin-ya, Gruntman, Eyal, Macke, Jakob H. & Turaga, Srinivas C. (2024). Connectome-constrained networks predict neural activity across the fly visual system. Nature, doi:10.1038/s41586-024-07939-3.
Stangl, W. (2024, 16. September). Gehirnforschung auf Basis künstliche Intelligenz. Psychologie-News.
„Die Presse“, Print-Ausgabe, 14.05.2022,
http://wiki.ldv.ei.tum.de/Anwendungen%20von%20Deep%20Learning (13-09-09)
http://www.spektrum.de/alias/deep-learning/wie-maschinen-lernen-lernen/1220451 (14-01-19)
http://www.welt.de/print/wams/wissen/article152973896/Total-durchschaut.html (16-03-05)
https://www.heise.de/tr/artikel/Deep-Learning-ist-nicht-das-Endziel-3998385.html (18-03-26)
Deep Learning ist eine Methode des maschinellen Lernens, die sich an der Struktur des menschlichen Gehirns orientiert: Daten werden nicht direkt mit dem Ergebnis in Zusammenhang gesetzt. Stattdessen werden in vielen Einzelschichten jeweils unterschiedliche Informationen aus den Daten extrahiert, an die nächste Schicht weitergeleitet, dort weiterverarbeitet und erst ganz zum Schluss mit dem beobachteten Ergebnis in Beziehung gesetzt. Das ist weniger kompliziert als es klingt. Bei einem Bewegungsmelder könnte der Algorithmus beispielsweise zunächst die Größe des sich bewegenden Objekts untersuchen (erste Schicht), dann die Anzahl der Extremitäten (zweite Schicht) und so weiter. Als „gefährlich“ werden dann Objekte klassifiziert, die entweder mittelgroß sind und vier Extremitäten (ein Einbrecher) haben oder sehr groß mit acht Extremitäten (zwei Einbrecher – oder eine Riesenspinne). Da Deep Learning-Verfahren sehr rechenintensiv sind und besonders bei großen Datensätzen Vorteile bieten, werden sie aktuell vor allem von großen Technologieunternehmen eingesetzt. So hat das Google Brain-Projekt herausgefunden, dass sich im Internet drei Kategorien von Bildern finden: menschliche Gesichter, menschliche Körper – und Katzen.
Jaromir Konecny schreibt dazu am 5. März 2019 unter dem Titel „Das superintelligente Gespenst“ in Spektrum.de über den Stand der Künstlichen Intelligenz: „Unsere heutigen Künstliche-Intelligenz-Programme sind künstliche neuronale Netze. Diese Optimierungsverfahren können Muster in sehr großen Datensätzen erkennen und Sachen unterscheiden. Das jedoch nach viel Training. Sie sind nur eine Ansammlung von zusammenverbundenen Punkten in einem Computerprogramm. Die Verbindungen zwischen diesen Punkten werden beim Training des Netzes mit Hilfe von Mathematik schrittweise so lange gestärkt oder geschwächt, bis das Netz eine optimale Antwort auf seine Aufgabe liefert. Ein solches KI-Programm kann – an Millionen Wohnzimmerbildern trainiert – besser und schneller als der Mensch jeden Gegenstand auf dem unbekannten Foto eines Wohnzimmers bestimmen. Wenn man aber in das Wohnzimmerbild einen Elefanten kopiert, ist das Programm so verwirrt, dass es nicht einmal das Fernsehgerät von dem Elefanten unterscheiden kann. Das Programm hat keine Ahnung, was ein Fernsehgerät ist und was ein Elefant. Wenn ein Elefant in einem Wohnzimmer auftaucht, verwechselt das Programm den Stuhl mit dem Sofa, so verwirrt ist es. Hätte man schon während des Trainings des Netzes in alle Wohnzimmerbilder einen Elefanten kopiert, würde das Netz ein Wohnzimmerbild ohne einen Elefanten nicht als das Bild eines Wohnzimmers erkennen.“