Clustering kurz und knapp:
- Clustering gruppiert Daten auf Basis von Zusammenhängen
- Hierarchisches Clustering gruppiert basierend auf der Distanz zwischen Punkten
- Nicht-Hierarchisches Clustering gruppiert basierend auf Aufteilungen von Gruppen
Hierarchisches Clustering
Das hierarchische Clustering ist ein distanzbasierter Ansatz, um Cluster zu erstellen. Es gibt zwei Wege, um ein hierarchisches Clustering zu erstellen:Wir können wir aus zwei Typen von Prognosemodellen wählen:
- Divisives Clustering
- Agglomeratives Clustering
Das sind komplizierte Wörter, aber dahinter stecken simple Konzepte. Beim divisivem Clustering formen alle Elemente ein Cluster, welches schrittweise in Unter-Cluster aufgeteilt wird. Diese Methode reduziert Heterogenität (= die Unterschiedlichkeit der Elemente) innerhalb eines Clusters.
Das agglomerative Clustering ist das genaue Gegenteil. Jedes einzelne Element formt ein Cluster, welche schrittweise zu größeren Clustern geformt werden. Diese Methode erhöht die Heterogenität innerhalb eines Clusters, da immer mehr unterschiedliche Elemente dazukommen.
Elemente mit kurzer Distanz zueinander sollten möglichst ein Cluster bilden. Zur Distanzmessung gibt es unterschiedliche Ansätze:
- Single Linkage: Verbindung zwischen den nächsten Punkten innerhalb von zwei Clustern
- Complete Linkage: Verbindung zwischen den entferntesten Punkten innerhalb von zwei Clustern
- Average Linkage: Alle Punkte innerhalb von zwei Clustern werden verbunden und der kleinste durchschnittliche Abstand wird zum Verbinden gewählt
- Centroid Methode: Verbindung nach der Distanz zwischen zwei Centroiden (einem imaginären Punkt in der Mitte aller Punkte eines Clusters)
Nicht-Hierarchisches Clustering
Beim nicht-hierarchischen Clustering wird in exklusives und nicht-exklusives Clustering unterteilt. Im exklusiven Clustering entspricht jedes Element genau einem Cluster. Beim nicht-exklusiven Clustering gehört jedes Element zu einer gewissen Wahrscheinlichkeit einem Cluster zu.
Ein Algorithmus für das exklusive Clustering ist das K-Means Clustering. K beschreibt die Anzahl der Cluster. Folgender Prozess wird durchlaufen:
- K Centroide werden zufällig erstellt und in den Daten positioniert.
- Die nächsten Punkte zu den Centroiden werden berechnet und zu einem Cluster geformt.
- Die Position der Centroide wird zur Mitte der neu erstellten Cluster geändert.
- Die Schritte 2 und 3 wiederholen sich so lange, bis die Centroiden sich nicht mehr bewegen.
Nachteil: Die K Centroide werden am Anfang zufällig platziert. Dadurch ist es möglich, dass die Cluster in einer schlechten Position starten. Als Lösung dieses Problems, kann man den K-Means Algorithmus mehrfach durchlaufen, um ein sauberes Ergebnis sicherzustellen.
Wir müssen aber am Anfang sagen, wie viele Cluster gebildet werden sollen. Das wollen wir doch eigentlich vom Computer wissen. Dazu wird die sogenannte Elbow-Methode genutzt. Um K zu bestimmen, wählen wir schrittweise unterschiedlich viele Cluster aus. Das Cluster mit dem größten Effekt auf die Veränderung der Standardabweichung wird als Clusteranzahl ausgewählt. Im Graphen wählt man den Punkt, der am stärksten abknickt – den „Elbow“.