Clusteranalyse

Clustern oder Clustering bezeichnet ganz allgemein eine Methode der Gruppierung von Objekten oder Tätigkeiten, bei der ganz unterschiedliche Dinge in möglichst ähnliche Gruppen sortiert werden. Ein Cluster beschreibt dabei eine Gruppe von Elementen, die einander ähnlich sind, wobei sich verschiedene Cluster aber deutlich voneinander unterscheiden. Um solche Gruppen zu finden, führt man eine Clusteranalyse durch.

Unter Clusteranalysen versteht man das statistische Verfahren zur Entdeckung von Ähnlichkeitsstrukturen in meist relativ großen Datenbeständen, wobei die so gefundenen Gruppen von ähnlichen Objekten als Cluster bezeichnet werden. Bei der Clusteranalyse ist das Ziel, neue Gruppen in den Daten zu identifizieren, und zwar im Gegensatz zur Klassifikation, bei der Daten bestehenden Klassen zugeordnet werden. Solche neuen Gruppen können etwa zur automatisierten Klassifizierung, zur Erkennung von Mustern in der Bildverarbeitung oder zur Marktsegmentierung eingesetzt werden.

Die Clusteranalyse ist somit eine Auswertungsmethode in der psychologischen Statistik zur Gruppierung von Variablen aufgrund von Interkorrelationen. Sie ist somit die Bezeichnung für eine Gruppe von verschiedenen Rechenverfahren, mittels derer man aus einer Vielzahl von Merkmalsträgern diejenigen in Gruppen ordnen will, deren Mitglieder untereinander besonders ähnlich sind, während zwischen den Gruppen die Unterschiede möglichst groß sein sollen.

Beim Anticlustering hingegen will man eine Menge von unterschiedlichen Elementen so aufteilen, dass sich die entstehenden Gruppen selbst ähneln. Beispiel: An der Universität soll eine Klausur geschrieben werden, doch ist der zur Verfügung stehende Raum zu klein für die Menge an Prüflingen, sodass mehrere Prüfungen hintereinander angesetzt werden müssen. Dies stellt den Prüfenden vor zwei Herausforderungen: Einerseits müssen die verschiedenen Klausurgruppen unterschiedliche Prüfungsfragen bekommen, damit die späteren Prüflinge keine Tipps von den früher Schreibenden bekommen. Andererseits aber müssen die Klausuren gleich schwer sein, damit alle Prüflinge gleiche Chancen haben. Die Prüfungsfragen in jeder Klausur müssen also ähnlich gewichtet sein.

Anticlustering kann etwa in der Genomsequenzierung eingesetzt werden, wenn Proben in möglichst heterogene Gruppen aufgeteilt werden müssen, um die generierten DNA-Fragmente leichter den ursprünglichen Proben zuordnen zu können. Ein weiteres Anwendungsfeld ist etwa im Bereich der Künstlichen Intelligenz-Forschung zur Aufteilung von Datensätzen, die für das maschinelle Lernen genutzt werden. Dies ist wichtig, damit sich Lernergebnisse, die mit einem Teil der Daten erzielt worden sind, auch auf andere Datensätze übertragen lassen.

Papenberg & Klau (2020) haben  Algorithmen für das Anticlustering entwickelt und diese in einem für Forschende frei verfügbaren R-Paket veröffentlicht. „R“ ist eine Programmiersprache, die vornehmlich für statistische Berechnungen eingesetzt wird. Diese Sprache ist frei nutzbar und kann mit Zusatzpaketen wie dem Modul „anticlust“ erweitert werden.

Link: https://github.com/m-Py/anticlust

Literatur

Papenberg, M. & Klau, G. W. (2020). Using anticlustering to partition data sets into equivalent parts. Psychological Methods, doi:10.1037/met0000301.

Schreibe einen Kommentar

Du musst eingeloggt um einen Kommentar zu hinterlassen.



*