Zum Inhalt springen

Deep Learning

    Deep Learning bezeichnet spezielle Verfahren des maschinellen Lernens, die auf dem Erlernen einer Repräsentation von Daten in unterschiedlichen Abstraktionsschichten basieren, wobei solche tiefe Architekturen aus mehreren Schichten bestehen, die durch nichtlineare Operationen miteinander verbunden sind. Durch diese tiefe mehrschichtige Architektur kann, Schicht für Schicht, eine einfachere und abstraktere Darstellung der zugrunde liegenden Daten geschaffen werden. Vereinfacht gesagt, handelt es sich um einen Prozess, bei dem ein Computer sich selbst, durch Erfahrungen, Wissen aneignet. Dem Deep Learning liegt der Gedanke zugrunde, das menschliche Nervensystem nachzubilden und ähnlich wie ein menschliches Gehirn aus vorliegenden Daten zu lernen, wobei der Lernprozess dem von Kindern gleicht, die sich die Welt durch Versuch und Irrtum bzw. Abgleich der dabei gemachten Erfahrungen erschließen.

    Zur Herstellung dieser Form einer künstlichen Intelligenz werden Methoden genutzt, die große Datenmengen analysieren können, wobei die Funktionsweise am Lernen im menschlichen Gehirn orientiert ist, indem auf Basis vorhandener Informationen das bisher Erlernte immer wieder mit neuen Inhalten verknüpft wird, d. h., dadurch weiter lernt. Daher ist die Maschine in der Lage, Prognosen oder Entscheidungen zu treffen und diese zu hinterfragen, wobei Entscheidungen bestätigt oder in einem neuen Anlauf geändert werden. Durch das kontinuierliches Hinterfragen der Entscheidungen erhalten die Informationsverknüpfungen bestimmte Gewichte, d. h., bestätigen sich Entscheidungen, erhöht sich deren Gewicht, werden sie revidiert, verringert es sich. Zwischen der Eingabeschicht und der Ausgabeschicht entstehen immer mehr Stufen an Zwischenschichten und Verknüpfungen, wobei über den eigentlichen Output die Anzahl der Zwischenschichten und deren Verknüpfung entscheidet. Im Unterschied zum rein maschinellen Lernen  greift der Mensch in die Analyse der Daten und den eigentlichen Entscheidungsprozess nicht ein, sondern sorgt lediglich dafür, dass die Informationen für das Lernen bereitstehen und die Prozesse dokumentiert werden. Auch lässt sich im Nachhinein nicht mehr vollständig zurückverfolgen, auf Basis welcher genauen Muster eine Maschine eine bestimmte Entscheidung getroffen hat.

    Die erste Generation der Forschung zur künstlichen Intelligenz zeigte, wie unerhört komplex es ist, das menschliche Alltagswissen abzubilden, insbesondere bei einfachen Wahrnehmungsaufgaben: Was macht ein menschliches Gesicht aus? Wie unterscheidet es sich von einer Maske oder dem Gesicht eines Affen? Hunderte von Entwicklern und Studenten verbrachten Jahrzehnte damit, per Hand all die Regeln einzutippen, die Computer brauchen könnten, um Gegenstände anhand ihrer Merkmale zu unterscheiden. Mit dem Versuch, das Lernen den künstlichen neuronalen Netzen zu überlassen, sah dieser Ansatz vor, künstliche Neurone in mehrere Ebenen einzuteilen. Gilt es beispielsweise ein Bild zu erkennen, registrierten etwa die Einheiten der ersten Ebene lediglich Helligkeitswerte der Pixel, während die nächste Ebene wiederum  erkennen sollte, dass einige der Pixel zu Kanten verbunden sind, woraufhin die darauf folgende Ebene zwischen horizontalen und vertikalen Linien unterscheidet, bis schließlich jene Ebene erreicht wird, in der die Neurone Augen auseinanderhalten können, und das System weiß, dass in einem Gesicht typischerweise zwei davon auftauchen. Allerdings haben erst steigende Rechenleistung und das dramatische Anwachsen digitaler Datenbestände dem Deep Learning eine neue Chance gegeben. Man extrahierte aus Youtube zehn Millionen Standbilder und ließ diese anschließend in das „Google Brain“ – einem Netzwerk aus tausend Computern, das wie ein Kleinkind Informationen aller Art in sich aufsaugen soll, laufen. Mit einer Million simulierter Neurone und einer Milliarde simulierter Verbindungen übertraf das Google Brain jedes frühere Kunstnetzwerk um das Zehnfache. Die Bilderflut wurde vom Rechnernetz schließlich in drei Kategorien eingeteilt: menschliche Gesichter, menschliche Körper und Katzen.

    Deep Learning bezeichnet eigentlich die Wiederbelebung einer älteren Technik aus den Forschungen zur künstlichen Intelligenz, nämlich der künstlichen neuronalen Netze. Diese Rechenverfahren orientieren sich grob an der Arbeitsweise des Gehirns und simulieren dazu ein dicht verwobenes Netz aus einfachen Nervenzellen, und lernen wie ihr natürliches Vorbild aus der Erfahrung, indem sie die Stärke der simulierten Neuronenverbindungen ändern. Nachdem der Versuch, Computer wie Menschen denken zu lassen, jahrzehntelang frustrierende Ergebnisse gebracht hatte, binden Unternehmen wie Google, Apple oder IBM Wissenschaftler an sich, die Expertise im Bereich Deep Learning besitzen. Deep Learning findet heute  Anwendung in der Analyse von größeren Datensätzen, z.B. bei der Gesichtserkennung. Auch basiert etwa das Spracherkennungsmodul von Siri, dem digitalen Assistenten auf dem iPhone, auf einem Deep-Learning-Verfahren, und auch als Google die Spracherkennung für sein Android-Betriebssystem damit ausstattete, sank die Fehlerquote um ein Viertel.

    Luc van Gool hat auf Basis des Deep Learning mit zwei Wissenschaftlern der ETH Zürich eine Software entwickelt, die aus hochgeladenen Fotos von Internetnutzern nicht nur das Alter und Geschlecht der auf dem Foto abgebildeten Person schätzt, sondern auch, wie attraktiv derjenige ist. Von einem „Hmm“ über „okay“ und „nice“ bis hin zu „hot“, „stunning“ und „godlike“ reicht dabei die Skala. Mehr als fünf Millionen Besucher hatte die Website seit der Freischaltung im Januar, denn alle wollten wissen, für wie schön der Computer sie und andere hielt. Van Gool et al.  gaben dem Rechner 13000 Porträtfotos und 17 Millionen Bewertungen dieser Fotos, die aus eine Dating-App stammten, denn wer gut aussah, hatte dort bessere Bewertungen als jemand, der nicht so gut aussah. Was Schönheit ist, sollte der Rechner damit selbst herausfinden, und hat es letztlich auch geschafft.

    Der AI-Forscher und Buchautor Peter J. Bentley warnt in einem Interview vor überzogenen Erwartungen im Hinblick auf künstliche Intelligenz, denn obwohl immer so interessante Techniken wie Deep Learning entwickelt werden und riesige Datenmengen sowie Rechenleistung in der Cloud genutzt werden können, gibt es in der AI-Forschung seit Jahrzehnten immer Zyklen von Boom und Enttäuschung. Zwar wird seiner Meinung nach das Maschinenlernen eine zunehmend wichtigere Rolle bei Dienstleistungen spielen, d. h., Systeme werden die Menschen besser verstehen und sogar in der Lage sein, deren nächsten Wünsche vorwegzunehmen. Doch um das menschliche Gehirn besser nachbauen zu können, müsste man erst einmal weitaus mehr darüber wissen, wie es funktioniert, denn wenn man heute etwa von künstlichen „neuronalen Netzen“ spricht, erweckt das den Eindruck, dass sie auf einem grundlegenden Verständnis des menschlichen Gehirns beruhen, aber das ist einfach nicht richtig. So ist Deep Learning wie eine Black Box, aber weil all seine Ergebnisse auf Zahlen basieren, sind sie für Menschen nicht nachvollziehbar, denn manche Probleme möchte man nicht nur irgendwie gelöst haben, sondern auch auf eine nachvollziehbare Weise.


    Um eine eigene Lehrveranstaltung zum Thema „Deep Learning“ wird ab dem Wintersemester 2022/23 der Masterstudiengang „AI Engineering“ der FH Technikum Wien ergänzt. Beispiele für Deep Learning seien „künstliche Intelligenzen von Google, die erstmalig die weltbesten Menschen in den Spielen ,Go‘ und ,Starcraft‘ geschlagen haben, oder die das 50 Jahre alte Problem der Proteinfaltung gelöst haben“, erklärt der Leiter des Studiengangs, Bernhard Knapp. Das Teilgebiet des maschinellen Lernens, das sich mit vielen Schichten von künstlichen Neuronen und großen Datenmengen beschäftigt, sei bislang schon fester Bestandteil des Curriculums gewesen gewesen und komme vor allem bei komplexen Herausforderungen wie Bilderkennung und bei menschlicher Sprache zum Einsatz.

    Studierende beschäftigen sich während des Masterlehrgangs, der vier Semester dauert, etwa mit der Entwicklung integrierter Systeme wie Echtzeitbilderkennung, mit der Prozessierung menschlicher Sprachen, selbstfahrenden Autos, medizinischen AI-Unterstützungssystemen. Der Fokus liegt dabei auf Programmierung, Software Engineering, Algorithmen. „Häufig bemerkt man im Alltag gar nichts davon, doch es gibt heute kaum einen Bereich, in dem Artificial Intelligence nicht relevant ist“, sagt Knapp. Entsprechend groß sei mittlerweile die Nachfrage auf dem Arbeitsmarkt nach Experten in diesem Fachgebiet.


    Definition: Eine spezialisierte Form des maschinellen Lernens, bei der das künstliche neuronale Netz in einer hierarchischen Struktur aufgebaut ist. Deep Learning bezeichnet quasi ein „tiefes“ neuronales Netz. Es handelt sich um eine Schlüsseltechnologie, die maßgeblich an den Fortschritten von AI in den letzten Jahren beteiligt ist.


    Kurioses: Ein sogenannter Experte hat übrigens eine interessante Auffassung von deep learning, wenn er zum Thema learning-by-doing schreibt: „Dabei war es immer schon so, dass wir durchs Tun lernen und dass gerade sogenanntes Deep Learning meistens etwas Schwieriges ist, das eigene Erfahrungen, Rückschläge und Lernen aus Fehlern beinhaltet.“


    Literatur

    Jones, N. (2014). The learning machines. Nature, 505, 146-148.
    Hinton, G., Osindero, S. & Teh, Y.(2006). A fast learning algorithm for deep belief nets. Neural Computation, 18,  1527-1554.
    „Die Presse“, Print-Ausgabe, 14.05.2022,
    http://wiki.ldv.ei.tum.de/Anwendungen%20von%20Deep%20Learning (13-09-09)
    http://www.spektrum.de/alias/deep-learning/wie-maschinen-lernen-lernen/1220451 (14-01-19)
    http://www.welt.de/print/wams/wissen/article152973896/Total-durchschaut.html (16-03-05)
    https://www.heise.de/tr/artikel/Deep-Learning-ist-nicht-das-Endziel-3998385.html (18-03-26)


    Impressum ::: Datenschutzerklärung ::: Nachricht ::: © Werner Stangl :::

    2 Gedanken zu „Deep Learning“

    1. Einfache Erkärung des Deep Learning

      Deep Learning ist eine Methode des maschinellen Lernens, die sich an der Struktur des menschlichen Gehirns orientiert: Daten werden nicht direkt mit dem Ergebnis in Zusammenhang gesetzt. Stattdessen werden in vielen Einzelschichten jeweils unterschiedliche Informationen aus den Daten extrahiert, an die nächste Schicht weitergeleitet, dort weiterverarbeitet und erst ganz zum Schluss mit dem beobachteten Ergebnis in Beziehung gesetzt. Das ist weniger kompliziert als es klingt. Bei einem Bewegungsmelder könnte der Algorithmus beispielsweise zunächst die Größe des sich bewegenden Objekts untersuchen (erste Schicht), dann die Anzahl der Extremitäten (zweite Schicht) und so weiter. Als „gefährlich“ werden dann Objekte klassifiziert, die entweder mittelgroß sind und vier Extremitäten (ein Einbrecher) haben oder sehr groß mit acht Extremitäten (zwei Einbrecher – oder eine Riesenspinne). Da Deep Learning-Verfahren sehr rechenintensiv sind und besonders bei großen Datensätzen Vorteile bieten, werden sie aktuell vor allem von großen Technologieunternehmen eingesetzt. So hat das Google Brain-Projekt herausgefunden, dass sich im Internet drei Kategorien von Bildern finden: menschliche Gesichter, menschliche Körper – und Katzen.

    2. Spektrum.de

      Jaromir Konecny schreibt dazu am 5. März 2019 unter dem Titel „Das superintelligente Gespenst“ in Spektrum.de über den Stand der Künstlichen Intelligenz: „Unsere heutigen Künstliche-Intelligenz-Programme sind künstliche neuronale Netze. Diese Optimierungsverfahren können Muster in sehr großen Datensätzen erkennen und Sachen unterscheiden. Das jedoch nach viel Training. Sie sind nur eine Ansammlung von zusammenverbundenen Punkten in einem Computerprogramm. Die Verbindungen zwischen diesen Punkten werden beim Training des Netzes mit Hilfe von Mathematik schrittweise so lange gestärkt oder geschwächt, bis das Netz eine optimale Antwort auf seine Aufgabe liefert. Ein solches KI-Programm kann – an Millionen Wohnzimmerbildern trainiert – besser und schneller als der Mensch jeden Gegenstand auf dem unbekannten Foto eines Wohnzimmers bestimmen. Wenn man aber in das Wohnzimmerbild einen Elefanten kopiert, ist das Programm so verwirrt, dass es nicht einmal das Fernsehgerät von dem Elefanten unterscheiden kann. Das Programm hat keine Ahnung, was ein Fernsehgerät ist und was ein Elefant. Wenn ein Elefant in einem Wohnzimmer auftaucht, verwechselt das Programm den Stuhl mit dem Sofa, so verwirrt ist es. Hätte man schon während des Trainings des Netzes in alle Wohnzimmerbilder einen Elefanten kopiert, würde das Netz ein Wohnzimmerbild ohne einen Elefanten nicht als das Bild eines Wohnzimmers erkennen.“

    Schreibe einen Kommentar

    Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert