Inhaltsverzeichnis

Kovarianz kurz und knapp:

Mit der Kovarianz überprüfen wir, ob zwischen zwei Variablen A und B ein Zusammenhang besteht.

Es gibt eigentlich nur drei Fälle für die Kovarianz:

  • Positive Kovarianz: Wenn die Kovarianz die wir berechnen positiv ist, dann führt ein hoher Wert für A auch zu einem hohen Wert für B.
  • Negative Kovarianz: Ist die Kovarianz allerdings negativ, sagt uns ein hoher Wert für A, dass B niedriger sein wird.
  • Kovarianz ist null: Ist die Kovarianz hingegen null, so können wir keinen Zusammenhang – also Unabhängigkeit der beiden Variablen – feststellen.

Hierbei müssen wir beachten, dass nur Variablen, welche sich als Zahlen darstellen lassen und sinnvoll der Größe nach geordnet werden können, mit der Kovarianz überprüft werden können. Haarfarben zum Beispiel, können wir mit der Kovarianz nicht auf einen Zusammenhang hin überprüfen. 

Wie berechnet man die Kovarianz?

\text{cov}(X, Y) = \frac{{\sum_{i=1}^{n}(X_i – \bar{X})(Y_i – \bar{Y})}}{{n-1}}

Ehh, die Formel sieht etwas kompliziert aus, oder? Bröseln wir das ganze in einfacheren Schritten auf. 

Wir müssen die folgenden Variablen klären:

  • X_i
  • \bar{X}
  • Y_i
  • \bar{Y}
  • n
  • und dieses komische {\sum_{i=1}^{n}}

In unserem Beispiel betrachten wir 5 Schüler und ihre tägliche Lernzeit in Minuten sowie die jeweils erzielten Noten. 

SchülerLernzeit (min)Schulnote
Anton104
Berta153
Chris203
Doris252
Emil301

Das i ist relativ simpel. Es bezieht sich auf die jeweilige Person. Wenn wir sagen X ist die Lernzeit und Y die Schulnote, heißt X_i sozusagen „Lernzeit von Anton“. 

Da wir später jede Person durchgehen, ändert sich das i Schritt für Schritt zum Wert der jeweils nächsten Person. Das erklärt in diesem Falle auch das komische {\sum_{i=1}^{n}} –  Das ist ein Summenzeichen und addiert einfach die Werte von allen Personen (i). i = 1 bedeutet, dass es beim 1. Schüler startet und das n ist die Gesamtanzahl aller Schüler. In unserem Fall endet die Summe also bei n = 5

Schritt 1 - Mittelwert berechnen

Wenden wir das komische Summenzeichen an, indem wir alle X_i (Lernzeiten der jeweiligen Personen) bzw. alle Y_i (Schulnoten der jeweiligen Personen) addieren. Das ganze Ergebnis teilen wir dann durch die Anzahl der Schüler (n).

Die Formel für den Mittelwert lautet also:

\bar{X} = \frac{{\sum_{i=1}^{n}X_i}}{n}

So berechnen wir also den Mittelwert für die Minuten und die Noten, also einfach alle Werte addieren und durch die Anzahl der Schüler teilen.

Mittelwert der Lernzeit:

\bar{X} = \frac{10 + 20 + 25 + 30 + 15}{5} = 20

Mittelwert der Schulnoten:

\bar{Y} = \frac{4 + 3 + 2 + 3 + 3}{5} = 3

Jetzt haben wir schon \bar{X} und \bar{Y} aus der Hauptformel.

Schritt 2 - Abweichung berechnen

Als nächstes berechnen wir die Abweichung unserer Daten vom Mittelwert. Also z.B. die Lernzeit von Anton (10min) minus den Mittelwert der Lernzeit (20min).

In unserer Hauptformel ist das der Part:

(X_i – \bar{X})

bzw.

(Y_i – \bar{Y})

Hier mal für unser Beispiel:

SchülerLernzeit (min)Schulnote
Anton10 – 20 = -104 – 3 = 1
Berta15 – 20 = -53 – 3 = 0
Chris20 – 20 = 03 – 3 = 0
Doris25 – 20 = 52 – 3 = -1
Emil30 – 20 = 101 – 3 = -2

Schritt 3 - Abweichungen miteinander multiplizieren

Nun multiplizieren wir die Abweichung der Minuten mit der Abweichung der Noten für jeden Schüler.

In der Kovarianz-Formel bedeutet das:

(X_i – \bar{X})(Y_i – \bar{Y})

Schüler Abweichung Lernzeit * Abweichung Schulnote
Anton -10 * 1 = -10
Berta -5 * 0 = 0
Chris 0 * 0 = 0
Doris 5 * (-1) = -5
Emil 10 * -2 = -20

Schritt 4 - Summe berechnen

Das kriegt jetzt jeder hin. Wir müssen einfach nur alle Ergebnisse von zuvor addieren.

Das erklärt den gesamten Zähler aus der Kovarianz-Formel:

{{\sum_{i=1}^{n}(X_i – \bar{X})(Y_i – \bar{Y})}}

Im normalen Leben sieht das so aus:

-10 + 0 + 0 + (-5) + (-20) = -35

Ja, Mathematik sieht manchmal komplizierter aus als sie ist.

Schritt 5 - Teilen durch alle Schüler minus 1

Wir wissen jetzt, dass der Zähler in der Kovarianz-Formel -35 als Ergebnis ausspuckt. Um die Kovarianz zu berechnen, nehmen wir diese -35 und teilen sie durch die Anzahl der Schüler (n) und ziehen davon 1 ab.

Warum n – 1 anstatt n? Das liegt daran, dass unsere Stichprobe aus nur 5 Schülern besteht. In der Statistik kann man nicht die gesamte Menschheit repräsentieren, weshalb es zu kleinen Unsicherheiten in den Schätzungen kommt. Um diese Unsicherheit einzufangen, teilt man durch n – 1 damit wird die Kovarianz ein wenig größer. Je weniger Menschen in der Stichprobe, desto größer wird dadurch die Varianz. 

Führst du also sehr kleine Umfragen, „bestraft“ dich die Kovarianz deutlich mehr als wenn du viel mehr Menschen befragen würdest.

Zurück zur Rechnung:

n – 1 = 5 – 1 = 4

Rechnen wir jetzt also die gesamte Formel aus ergibt sich:

\text{cov}(X, Y) = \frac{{\sum_{i=1}^{n}(X_i – \bar{X})(Y_i – \bar{Y})}}{{n-1}} = \frac{-35}{5-1} = -8,75

Wie interpretiert man die Kovarianz?

Man interpretiert das Ergebnis einer Kovarianz in drei verschiedenen Fällen:

  • positive Kovarianz: Wenn der Wert einer Variable steigt, steigt auch der Wert der anderen.
  • negative Kovarianz: Wenn der Wert einer Variable steigt, sinkt der Wert der anderen.
  • keine Kovarianz: Wenn das Ergebnis null ist, sind die beiden Variablen unabhängig voneinander.

Die Kovarianz erfasst auch nur lineare Beziehungen. Wenn bspw. keine Kovarianz besteht, heißt das nicht, dass keine Beziehung zwischen den beiden Variablen besteht. Der Anstieg kann damit linear erklärt werden. Wie wir uns aber denken können, wird man mit längerer Lernzeit nicht unendlich schlauer. Irgendwann bremst der Effekt ab. Es wirkt linear, ist es aber nicht.

Man kann aber nicht sagen, wie stark der Zusammenhang ist. Leider ist die Kovarianz nicht standardisiert, weshalb man für den Stärkegrad die Kovarianz durch die Standardabweichungen beider Variablen teilen müsste. Damit berechnet man den Korrelationskoeffizienten. 

Interpretation: Positive Kovarianz

Wir haben eine zufällige Gruppe spanisch lernen lassen. Wir untersuchen die Lernzeit im Bezug auf ihre Punktzahl in einem Spanisch-Test am Ende der Woche. Wir stellen fest:

Je größer die Lernzeit in Minuten, desto höher war die Punktzahl. Je kleiner die Lernzeit in Minuten, desto kleiner war die Punktzahl.

Interpretation: Negative Kovarianz

Analysieren wir die Abhängigkeit von Lernzeit auf die Schulnote (1 bis 6), stellen wir bei einer negativen Kovarianz fest: 

Je größer die Lernzeit in Minuten, desto kleiner wird die Schulnote (d.h. in Richtung 1). Je kleiner die Lernzeit in Minuten, desto größer wird die Schulnote (d.h. in Richtung 6).

Interpretation: Keine Kovarianz

Wir analysieren die Beziehung zwischen der Körpergröße und der Anzahl der Bücher im Regal. Wie zu erwarten, gibt es keinen linearen Zusammenhang zwischen diesen beiden Variablen, weshalb die Kovarianz gleich null ist.

Ein Ausnahmefall ist aber beispielsweise das Verhältnis von Stressniveau und Leistungsfähigkeit. Zu entspannt sein, senkt die Leistungsfähigkeit. Zu gestresst sein allerdings auch. Alles dazwischen kann aber die Leistungsfähigkeit steigern. Am besten könnte man dieses Verhältnis in einer U-Kurve darstellen.

Dieser nicht-lineare Zusammenhang kann im Durchschnitt dazu führen, dass die Kovarianz = 0 ist. Es gäbe also keinen linearen Effekt zwischen den beiden Variablen, obwohl aber ein nicht-linearer Effekt besteht. Es scheint mathematisch also, als stünden die beiden Variablen in gar keiner Beziehung zueinander. Daher genießt die Kovarianz immer mit Vorsicht!

ARTIKEL TEILEN

Hast du Fragen? Hinterlasse einen Kommentar!