Das hierarchische Clustering ist ein distanzbasierter Ansatz, um Cluster zu erstellen. Es gibt zwei Wege, um ein hierarchisches Clustering zu erstellen:Wir können wir aus zwei Typen von Prognosemodellen wählen:
Das sind komplizierte Wörter, aber dahinter stecken simple Konzepte. Beim divisivem Clustering formen alle Elemente ein Cluster, welches schrittweise in Unter-Cluster aufgeteilt wird. Diese Methode reduziert Heterogenität (= die Unterschiedlichkeit der Elemente) innerhalb eines Clusters.
Das agglomerative Clustering ist das genaue Gegenteil. Jedes einzelne Element formt ein Cluster, welche schrittweise zu größeren Clustern geformt werden. Diese Methode erhöht die Heterogenität innerhalb eines Clusters, da immer mehr unterschiedliche Elemente dazukommen.
Elemente mit kurzer Distanz zueinander sollten möglichst ein Cluster bilden. Zur Distanzmessung gibt es unterschiedliche Ansätze:
Beim nicht-hierarchischen Clustering wird in exklusives und nicht-exklusives Clustering unterteilt. Im exklusiven Clustering entspricht jedes Element genau einem Cluster. Beim nicht-exklusiven Clustering gehört jedes Element zu einer gewissen Wahrscheinlichkeit einem Cluster zu.
Ein Algorithmus für das exklusive Clustering ist das K-Means Clustering. K beschreibt die Anzahl der Cluster. Folgender Prozess wird durchlaufen:
Nachteil: Die K Centroide werden am Anfang zufällig platziert. Dadurch ist es möglich, dass die Cluster in einer schlechten Position starten. Als Lösung dieses Problems, kann man den K-Means Algorithmus mehrfach durchlaufen, um ein sauberes Ergebnis sicherzustellen.
Wir müssen aber am Anfang sagen, wie viele Cluster gebildet werden sollen. Das wollen wir doch eigentlich vom Computer wissen. Dazu wird die sogenannte Elbow-Methode genutzt. Um K zu bestimmen, wählen wir schrittweise unterschiedlich viele Cluster aus. Das Cluster mit dem größten Effekt auf die Veränderung der Standardabweichung wird als Clusteranzahl ausgewählt. Im Graphen wählt man den Punkt, der am stärksten abknickt – den „Elbow“.