Der Begriff Big Data oder Massendaten bezeichnet unterschiedlichste Datenmengen, die zu groß, zu komplex, zu schnelllebig oder auch zu schwach strukturiert sind, um sie mit traditionellen Methoden der Datenverarbeitung auszuwerten. Solche Massendaten, wie sie z. B. alltäglich im Internet anfallen, sind auch für die Psychologie von großem Interesse, da aus ihnen wertvolle Informationen über Menschen, die diese Daten erzeugt haben, gewonnen werden können. Mit Hilfe geeigneter statistischer Methoden können in großen Datenbeständen psychologische Hypothesen geprüft und neue Hypothesen entwickelt werden. Dabei bezeichnet man das Suchen von neuen Erkenntnissen in solchen Datenbergen als Data-Mining, wobei die Methoden schon lange in der Wirtschaftspsychologie bei Unternehmensdaten eingesetzt werden. So wird mit speziellen Tools und Statistikprogrammen systematisch nach relevanten Zusammenhängen, Mustern und Trends im Datenbestand eines Unternehmens gesucht, um Informationen für eine effektivere Steuerung und Vorhersage von Geschäftsprozessen zu gewinnen (Business Intelligence, Customer Relationship Management).
Kosinski et al. (2013) haben gezeigt, dass leicht zugängliche digitale Daten des Verhaltens, etwa Facebook Likes, automatisch genutzt werden können, um hochsensitive persönliche Merkmale von Menschen vorherzusagen, so neben neben trivialen Merkmalen wie dem Alter und dem Geschlecht auch die sexuelle Orientierung, die ethnische Zugehörigkeit, religiöse und politische Anschauungen, Persönlichkeitsfaktoren wie Trennungsangst oder die Nutzung suchtmachender Substanzen. Die Autoren hatten durch einen Online-Persönlichkeitstest an über 58000 Probanden und deren Facebook-Verhalten eine mehrdimensionales Profil (mittels linearer Regression) entwickelt, um dann auf Grund des Online-Verhaltens die genannten individuellen Merkmale dieser Menschen mit hoher Genauigkeit vorherzusagen. Dabei zeigte sich auch, dass allein mit solchen Internet-Daten bei einzelnen Persönlichkeitsfaktoren annähernd die Genauigkeit eines Persönlichkeitstests erreicht werden kann.
Es genügt demnach, die Likes von Facebook-Profilen zu betrachten, um daraus persönliche Merkmale mit hoher Wahrscheinlichkeit vorherzusagen, wobei diese Methode nicht auf Facebook-Daten beschränkt ist, sondern es können auch aus anderen alltäglich im Internet anfallenden Daten detaillierte Persönlichkeitsprofile erstellt werden. Internationale Konzerne wie Google, Amazon oder Apple nutzen solche Prognosemodelle etwa für das Ausspielen von personalisierter Werbung. Hinzu kommt, dass diese ursprünglich pseudonymen Daten mit der Zunahme an Informationen immer leichter einzelnen Menschen zuordenbar werden. In diesem Feld finden sich zahlreiche Möglichkeit zur Manipulation von Menschen, denn Menschen mögen Informationen, die mit ihrem Weltbild übereinstimmen, die sie in ihrem Verhalten und ihren Vorlieben bestätigen. Mit Hilfe solcher Profile können dann Informationen zielsicher an den Mann oder die Frau gebracht werden, wobei zusätzlich Menschen dazu neigen, ohnehin selektiv nur das zu sehen, was deren Meinung bestätigt.
Rasante Fortschritte in der Spracherkennung hängen mit der Verfügbarkeit großer Datenmengen zusammen
Dass mehr Daten allein mehr Erkenntnisse bringen, kann etwa für die medizinische Forschung bei Weitem nicht eingelöst werden, denn manchmal wird man vor lauter Daten blind und die Ergebnisse von Analysen, die allein auf großen Datenmengen basieren, sind oft problematisch. Werden große Datenmengen ausgewertet, bedeutet das also noch lange nicht, am Ende eine brauchbare Entdeckung zu machen. So kam etwa eine solche Auswertung zu dem Schluss, dass an Asthma zu leiden ein wirksamer Schutz gegen eine tödlich verlaufende Lungenentzündung sei, doch dass Menschen mit Asthma seltener an einer Lungenentzündung sterben ist zwar richtig, jedoch nicht wegen der Grunderkrankung, sondern weil sie genau deswegen öfter zum Arzt gehen. Wenn man viele Daten für die Auswertung zur Verfügung hat, findet man darin nicht nur neue Erkenntnisse sondern auch Rauschen, was bedeuten kann, bei der Suche nach der Nadel im Heuhaufen nichts zu erreichen als die Menge des Heus zu vergrößern. Werden große Datenmengen analysiert, werden meist nur Korrelationen hergestellt und die sind mitunter verfänglich – bekanntestes Beispiel ist der Rückgang von Storchenpopulationen bei gleichzeitigem Sinken der Geburtenzahlen in der Bevölkerung. Dennoch kann Forschung mit Big Data funktionieren, etwa in der Klimaforschung, doch dort wurden die entsprechenden Rechenmodelle über Jahrzehnte hinweg entwickelt.
Literatur
Kosinski, Michal, Stillwell, David & Graepel, Thore (2013). Private traits and attributes are predictable from digital records of human behavior. Proceedings of the National Academy of Sciences, doi:10.1073/pnas.1218772110.
Stangl, W. (2021, 21. November). Rasante Fortschritte in der Spracherkennung. was stangl bemerkt ….
https://science.orf.at/stories/2994128/ (19-11-09)