Data Mining kurz und knapp:

  • Beim Data Mining analysieren wir Datensätze, um Prognosen zu erstellen oder Muster in Daten zu finden.
  • Regression: Eignet sich zur Prognose von Zahlenwerten.
  • Klassifikation: Eignet sich zur Kategorisierung von unbekannten Daten.
  • Clustering: Gruppiert Daten anhand von Zusammenhängen
  • Assoziationsregeln: Entdeckt Beziehungen zwischen Variablen 

Beim Data Mining untersuchen wir unsere Daten nach Zusammenhängen, Mustern und Trends. Wir entwirren also riesige Datensätze, um Wissen daraus zu gewinnen. Data Mining ist ein Prozessschritt der „Knowledge Discovery in Databases“ (Wissensentdeckung in Datenbanken). In den vorherigen Schritten werden Daten so ausgewählt und formatiert, dass sie sich für unsere Berechnungen eignen.

Im Schritt Data Mining müssen wir ein statistisches Modell auswählen, mit dem wir unsere Daten auswerten wollen. Wir stehen vor der Wahl, ob wir ein Supervised Learning Modelle (Prognosemodelle) oder ein Unsupervised Learning Modelle (Beschreibungsmodelle) wählen.

Supervised Learning Modelle

Beim Supervised Learning haben wir gekennzeichnete Daten z.B. Bilder von Hund und Katze, welche in der Datenbank auch als Hund oder Katze beschriftet sind. Kommen neue unbeschriftete Bilder von einem Hund oder einer Katze dazu, kann unser Modell sie kennzeichnen. Je mehr Bilder unser Modell sieht, desto genauer werden seine Prognose. Kurz: Auf Grundlage von vielen beschrifteten Daten, werden zukünftige oder neue, unbeschriftete Daten von unserem Modell vorhergesagt.

Wir können wir aus zwei Typen von Prognosemodellen wählen:

  1. Regression
  2. Klassifikation

Regression

Eine Regression liefert uns zukünftige Daten. Beispielhafte Anwendungsfälle sind Verkaufsprognosen, Finanzvorhersagen oder die Vorhersage von Wiederverkaufspreisen. Es gibt unterschiedliche Algorithmen, um Regressionen für verschiedene Anwendungsfälle zu bilden:

  • Lineare Regression
  • Polynomiale Regression
  • Entscheidungsbäume
  • Neuronale Netze

Klassifikation

Eine Klassifikation ordnet unseren Daten eine Kategorie zu. Wenn unser Algorithmus z.B. viele reguläre- und viele Spam-Mails als Datengrundlage hat, kann er auf Grundlage der verwendeten Wörter, der E-Mail­-Adresse des Absenders und weiteren Faktoren berechnen, wie wahrscheinlich eine neue E-Mail Spam ist. Weitere Anwendungsfälle sind Kreditkarten-Betrugserkennungen, Einschätzung der Bonität oder die Einschätzung, ob ein Kunde bald kündigen möchte. Auch dafür gibt es verschiedene Algorithmen mit unterschiedlichen Vor- und Nachteilen:

  • Logistische Regression
  • Support Vector Machines
  • K-Nearest Neighbours
  • Entscheidungsbäume
  • Neuronale Netze

Unsupervised Learning Modelle

Beim Unsupervised Learning müssen unsere Daten nicht gekennzeichnet sein. Es werden Zusammenhänge und Muster innerhalb unseres Datensatzes gesucht. Ziel ist es eher, Chaos in den Daten zu ordnen.

Wir können auch Beschreibungsmodelle in zwei Typen einteilen:

  1. Clustering
  2. Assoziationsregeln

Clustering

Beim Clustering werden im Datensatz Untergruppen gebildet – sogenannte Cluster. Damit können wir z.B. alleine aus dem Körpergewicht und der Körpergröße von Testpersonen beschreiben, welche Datengruppe Frauen sind und welche Männer. Auf einem Graphen wird nämlich auffallen, dass zwei voneinander entfernte Datenklumpen existieren. Da Männer in der Regel größer und schwerer sind als Frauen, wird der Klumpen oben rechts eher Männer beschreiben und der Klumpen unten links eher Frauen. Für das Clustering existieren verschiedene Algorithmen:

  • K-Means
  • Selbstorganisierende Karte
  • Gaussian Mixture Models

Assoziationsregeln

Assoziationsregeln dienen zum Entdecken von interessanten Beziehungen zwischen Variablen. Häufig werden sie von (Online)-Märkten verwendet, um die Einkaufskörbe der Kunden zu analysieren. Wenn häufig auffällt, dass sich Rum und Cola in einem Einkaufswagen, kann man untersuchen, ob beim Kauf von Cola die Wahrscheinlichkeit hoch ist, dass der Kunde auch Rum kauft (und umgekehrt). Algorithmen hierfür sind:

  • Apriori Algorithmus
  • Eclat Algorithmus
  • FP-growth
ARTIKEL TEILEN

Hast du Fragen? Hinterlasse einen Kommentar!