Big Data – Online Lexikon für Psychologie & Pädagogik

Der Begriff Big Data oder Massendaten bezeichnet unterschiedlichste Datenmengen, die zu groß, zu komplex, zu schnelllebig oder auch zu schwach strukturiert sind, um sie mit traditionellen Methoden der Datenverarbeitung auszuwerten. Solche Massendaten, wie sie z. B. alltäglich im Internet anfallen, sind auch für die Psychologie von großem Interesse, da aus ihnen wertvolle Informationen über Menschen, die diese Daten erzeugt haben, gewonnen werden können. Mit Hilfe geeigneter statistischer Methoden können in großen Datenbeständen psychologische Hypothesen geprüft und neue Hypothesen entwickelt werden. Dabei bezeichnet man das Suchen von neuen Erkenntnissen in solchen Datenbergen als Data-Mining, wobei die Methoden schon lange in der Wirtschaftspsychologie bei Unternehmensdaten eingesetzt werden. So wird mit speziellen Tools und Statistikprogrammen systematisch nach relevanten Zusammenhängen, Mustern und Trends im Datenbestand eines Unternehmens gesucht, um Informationen für eine effektivere Steuerung und Vorhersage von Geschäftsprozessen zu gewinnen (Business Intelligence, Customer Relationship Management).

Kosinski et al. (2013) haben gezeigt, dass leicht zugängliche digitale Daten des Verhaltens, etwa Facebook Likes, automatisch genutzt werden können, um hochsensitive persönliche Merkmale von Menschen vorherzusagen, so neben neben trivialen Merkmalen wie dem Alter und dem Geschlecht auch die sexuelle Orientierung, die ethnische Zugehörigkeit, religiöse und politische Anschauungen, Persönlichkeitsfaktoren wie Trennungsangst oder die Nutzung suchtmachender Substanzen. Die Autoren hatten durch einen Online-Persönlichkeitstest an über 58000 Probanden und deren Facebook-Verhalten eine mehrdimensionales Profil (mittels linearer Regression) entwickelt, um dann auf Grund des Online-Verhaltens die genannten individuellen Merkmale dieser Menschen mit hoher Genauigkeit vorherzusagen. Dabei zeigte sich auch, dass allein mit solchen Internet-Daten bei einzelnen Persönlichkeitsfaktoren annähernd die Genauigkeit eines Persönlichkeitstests erreicht werden kann.

Es genügt demnach, die Likes von Facebook-Profilen zu betrachten, um daraus persönliche Merkmale mit hoher Wahrscheinlichkeit vorherzusagen, wobei diese Methode nicht auf Facebook-Daten beschränkt ist, sondern es können auch aus anderen alltäglich im Internet anfallenden Daten detaillierte Persönlichkeitsprofile erstellt werden. Internationale Konzerne wie Google, Amazon oder Apple nutzen solche Prognosemodelle etwa für das Ausspielen von personalisierter Werbung. Hinzu kommt, dass diese ursprünglich pseudonymen Daten mit der Zunahme an Informationen immer leichter einzelnen Menschen zuordenbar werden. In diesem Feld finden sich zahlreiche Möglichkeit zur Manipulation von Menschen, denn Menschen mögen Informationen, die mit ihrem Weltbild übereinstimmen, die sie in ihrem Verhalten und ihren Vorlieben bestätigen. Mit Hilfe solcher Profile können dann Informationen zielsicher an den Mann oder die Frau gebracht werden, wobei zusätzlich Menschen dazu neigen, ohnehin selektiv nur das zu sehen, was deren Meinung bestätigt.

Rasante Fortschritte in der Spracherkennung hängen mit der Verfügbarkeit großer Datenmengen zusammen

In den 1950er Jahren begann man, die Möglichkeit zu erforschen, gesprochene Sprache in geschriebenen Text umzuwandeln, doch diese frühen Systeme waren in ihren Fähigkeiten begrenzt und beschränkten sich oft auf die Erkennung einzelner Buchstaben oder einer kleinen Gruppe von Wörtern. Seither sind die Spracherkennungssysteme jedoch immer ausgefeilter und genauer geworden, was vor allem auf die Fortschritte bei den Algorithmen des maschinellen Lernens zurückzuführen ist, die es Computern ermöglichen, aus großen Datenmengen Muster zu erkennen und Vorhersagen zu treffen. Bei der Spracherkennung etwa werden solche Algorithmen des maschinellen Lernens eingesetzt, um Audiodaten zu analysieren und Muster zu erkennen, die bestimmten Wörtern oder Sätzen entsprechen. Je mehr Daten dieses System erhält, desto besser kann es Sprache erkennen, was zu größerer Genauigkeit und Effizienz führt. Hinzu kommt die zunehmende Verfügbarkeit großer Datensätze, die den Algorithmen für maschinelles Lernen die notwendigen Informationen liefern, um zu lernen und sich zu verbessern. So hat beispielsweise das Aufkommen sozialer Medien und anderer Online-Plattformen eine Fülle von Textdaten hervorgebracht, die zum Trainieren von Spracherkennungssystemen verwendet werden können, und die Verbreitung von Smartphones und anderen Geräten mit eingebauten Mikrofonen hat die Erfassung von Audiodaten für die Analyse weiter erleichtert (Stangl, 2021).

Dass mehr Daten allein mehr Erkenntnisse bringen, kann etwa für die medizinische Forschung bei Weitem nicht eingelöst werden, denn manchmal wird man vor lauter Daten blind und die Ergebnisse von Analysen, die allein auf großen Datenmengen basieren, sind oft problematisch. Werden große Datenmengen ausgewertet, bedeutet das also noch lange nicht, am Ende eine brauchbare Entdeckung zu machen. So kam etwa eine solche Auswertung zu dem Schluss, dass an Asthma zu leiden ein wirksamer Schutz gegen eine tödlich verlaufende Lungenentzündung sei, doch dass Menschen mit Asthma seltener an einer Lungenentzündung sterben ist zwar richtig, jedoch nicht wegen der Grunderkrankung, sondern weil sie genau deswegen öfter zum Arzt gehen. Wenn man viele Daten für die Auswertung zur Verfügung hat, findet man darin nicht nur neue Erkenntnisse sondern auch Rauschen, was bedeuten kann, bei der Suche nach der Nadel im Heuhaufen nichts zu erreichen als die Menge des Heus zu vergrößern. Werden große Datenmengen analysiert, werden meist nur Korrelationen hergestellt und die sind mitunter verfänglich – bekanntestes Beispiel ist der Rückgang von Storchenpopulationen bei gleichzeitigem Sinken der Geburtenzahlen in der Bevölkerung. Dennoch kann Forschung mit Big Data funktionieren, etwa in der Klimaforschung, doch dort wurden die entsprechenden Rechenmodelle über Jahrzehnte hinweg entwickelt.

Literatur

Kosinski, Michal, Stillwell, David & Graepel, Thore (2013). Private traits and attributes are predictable from digital records of human behavior. Proceedings of the National Academy of Sciences, doi:10.1073/pnas.1218772110.
Stangl, W. (2021, 21. November). Rasante Fortschritte in der Spracherkennung. was stangl bemerkt ….
https://bemerkt.stangl-taller.at/rasante-fortschritte-in-der-spracherkennung.
https://science.orf.at/stories/2994128/ (19-11-09)