Statistik

Varianz und Standardabweichung in der Statistik (einfach erklärt)

Varianz und Standardabweichung? Statistik? Ach nein … lass mal lieber.

Mit diesem Gedanken bist du nicht allein – für viele Studenten steht Statistik auf der Liste der gefürchteten Fächer ganz weit oben.

Doch keine Sorge, in diesem Video erkläre ich dir zwei zentrale Begriffe der Statistik endlich verständlich.

Und zwar geht es heute um die Varianz und die Standardabweichung. Diese sind fester Bestandteil jeder Statistik-Klausur. Aber nicht nur das, denn der Grund, warum diese Größen so viel und oft behandeln werden ist ihre Wichtigkeit für statistische Datenauswertungen.

Wenn du also eine Umfrage oder ein Experiment durchführst, musst du mit Varianz und Standardabweichung vertraut sein.

Die gute Nachricht ist, dass alles, was hier besprechen, gar nicht so kompliziert ist, wie es zunächst scheint.

Varianz und Standardabweichung

Varianz und Standardabweichung sind Begriffe der deskriptiven Statistik.

Mit diesen Streuungsparametern kannst du deine Daten bzw. deine Stichprobe besser verstehen und Vergleiche anstellen.

Angenommen, du hast im Rahmen deiner Bachelorarbeit eine Umfrage durchgeführt.

Mithilfe von Varianz und Standardabweichung kannst du dir anschauen, wie unterschiedlich die Antworten deiner Probanden ausfallen. Sie ermöglichen es dir, Muster und Abweichungen in den Daten zu erkennen und wertvolle Erkenntnisse für deine Forschung zu gewinnen.

Oder aber du hast dir ein Experiment überlegt und möchtest deine Probanden zufällig verschiedenen Gruppen zuordnen. Varianz und Standardabweichung können dir nun dabei helfen, zu überprüfen, ob deine Gruppen sich ähnlich genug sind, damit du sie guten Gewissens miteinander vergleichen kannst.

1. Varianz

Die empirische Varianz ist ein statistisches Maß, das beschreibt, wie groß die quadrierte Abweichung einzelner Werte vom Mittelwert einer Datenmenge ist.

Das heißt, sie gibt dir Auskunft darüber, wie sehr die einzelnen Werte einer Datenmenge um den Mittelwert herum variieren. In der Statistik spricht man von Streuung um den Mittelwert.

Wie stark die Werte abweichen, kann man auch grafisch (z.B. in einem Streudiagramm) sichtbar machen.

Varianz und Standardabweichung8

Kleine Streuung

Varianz und Standardabweichung7

Große Streuung

Berechnung der Varianz:

Schauen wir uns für die Berechnung der Varianz mal ein Beispiel an: 5 Studierende wurden gefragt, wie alt sie sind und viel Geld sie im Monat für Miete ausgeben

Dadurch ergeben sich zwei Datenreihen.

Reihe 1: 20,22,24,25,26 (Alter der Befragten)

Reihe 2: 20, 200, 400, 1000, 1200 (Ausgaben für Miete in Euro)

Für beide dieser Datenreihen lässt sich jetzt die Varianz bestimmen.

Beispiel 1, Alter:

Mittelwert: (20+22+24+25+26/5) =23,4

Varianz und Standardabweichung6

Wenn du dich jetzt an die Definition der Varianz erinnerst (gibt an, wie sehr die einzelnen Werte einer Datenmenge um den Mittelwert herum variieren), können wir bereits erahnen, dass der Wert der Varianz eher klein sein wird.

Wir haben hier nämlich keine großen Ausreißer, sondern alle Werte bewegen sich ungefähr in der Nähe des Durchschnittsalters, also dem Mittelwert.

Abstand zum Mittelwert

Um die Varianz nun genau zu berechnen, ermitteln wir einfach den Abstand jedes einzelnen Wertes zum Mittelwert.

Person 1: -3,4 vom Mittelwert (20-23,4)

Person 2: -1,4 vom Mittelwert (22-23,4)

Person 3: 0,6 vom Mittelwert (24-23,4)

Person 4: 1,6 vom Mittelwert (25-23,4)

Person 5: 2,6 vom Mittelwert (26-23,4)

Varianz und Standardabweichung5

Die Werte, die unter dem Mittelwert liegen, ergeben ja einen negativen Abstand zum Mittelwert. Für die Varianz sind wir aber auf der Suche nach einem positiven Wert. Der Varianz ist es erstmal egal, ob die Abweichung über oder unter dem Mittelwert liegt.

Damit wir weiterrechnen können, müssen wir erreichen, dass alle Werte positiv werden. Dazu nehmen wir die Werte einfach zum Quadrat.

Person 1: -3,4*-3,4 = 11,56

Person 2: -1,4*-1,4= 1,96

Person 3: 0,6*0,6= 0,36

Person 4: 1,6*1,6= 2,56

Person 5: 2,6*2,6=6,76

Jetzt sind wir aber nicht daran interessiert, wie jede einzelne Person vom Mittelwert abweicht, sondern wie groß die Abweichung im Durchschnitt ist, deshalb müssen wir die Werte addieren und durch die Anzahl der Befragten teilen. Die Anzahl der Befragten nennt man auch „n“.

11,56+1,96+0,36+2,56+6,76=23,2

Und durch die Anzahl der Probanden -1 (da wir mit einer Stichprobe arbeiten; dazu später mehr) teilen. Im Beispiel also n= 4.

23,2/4= 5,8

Formel4

Die Varianz ist in diesem Fall = 5,80

Beispiel 2, Miete:

Reihe 2: 20, 200, 400, 1000, 1200 (monatliche Kosten für Miete).

Der Mittelwert im zweiten Beispiel beträgt 564.  Hier können wir also direkt sehen, dass die Varianz größer sein wird, da die Daten sehr stark um den Mittelwert schwanken.

Abstand von 564 zu 20 ist beispielsweise – 544.

Und der Abstand von 564 zu 1200 ist +636.

Nachdem du die Werte in die Formel eingesetzt hast, kommst du auf folgendes Ergebnis:

262480.

An diesem Ergebnis siehst du schon, dass die Varianz etwas unpraktisch ist.

Das liegt daran, dass die Werte ja im Quadrat vorliegen und somit mathematisch gesehen zur Interpretation eher ungeeignet sind.

Wir brauchen nämlich gleiche Einheiten, um Werte vergleichen können (die 262480 entsprechen ja nicht mehr der Ausgangseinheit – in diesem Fall Euro).

Die Varianz wird eher als Basiswert für weitere Berechnungen genutzt, wie z.B. für die Standardabweichung.

2. Standardabweichung

Die Standardabweichung ist nichts weiter als die Quadratwurzel der Varianz.

Mit der Wurzel können wir den quadrierten Wert also wieder in die Ausgangseinheit umwandeln.

Die Standardabweichung zeigt dir, wie stark die einzelnen Werte um den Mittelwert in der richtigen Einheit streuen, und gibt dir somit eine Vorstellung davon, wie repräsentativ der Durchschnittswert ist.

Formel:

Formel3

Setzen wir unsere Beispiele jetzt in die Formel ein. Da ich die Varianz bereits berechnet habe, muss ich nur noch die Wurzel ziehen:

Beispiel Alter:

s2 = 5,8

s= 2,4

Beispiel Miete:

s2 = 262480

s= 512,33

Interpretation der Standardabweichung

In unserem Beispiel schwankt das Alter unserer Probanden also im Schnitt um 2,4 Jahre.

Die Ausgaben für die Miete schwanken um 512,33 Euro.

Je höher das Ergebnis der Standardabweichung ist, desto mehr schwanken die einzelnen Werte der Stichprobe.

Die Standardabweichung ist besonders hilfreich, wenn du mit größeren Datenmengen arbeitest und Zusammenhänge zwischen verschiedenen Variablen untersuchst.

Sie kann dir helfen, zu erkennen, wie homogen oder heterogen deine Daten sind.

3. Stichprobe oder Gesamtpopulation?

Formel1
Formel2

Diese beiden Formeln für die Varianz unterscheiden sich lediglich im Vorfaktor (1/(n-1) oder 1/n) Aber warum gibt es zwei verschiedene Formeln?

Eine Stichprobe ist eine (meistens zufällige) Ziehung aus einer größeren Menge an Befragten. Wenn du beispielsweise eine Umfrage startest, möchtest du etwas über Studierende mit Kind herausfinden. Das wäre in diesem Fall deine Grundgesamtheit.

Da du aber nicht alle diese Personen befragen kannst, befragst du eine Teilmenge dieser Grundgesamtheit, das ist deine Stichprobe.

In der Statistik besagt das Gesetz der großen Zahlen, dass sich Mittelwerte innerhalb einer Stichprobe dem „echten“ Mittelwert der Grundgesamtheit immer weiter annähern, je größer die Stichprobe wird.

In der Realität kann es sein, dass ein Mittelwert in deiner Stichprobe zufällig etwas mehr abweicht, aber je mehr Personen du hinzufügst oder neue Stichproben ziehst, desto geringer wird die Wahrscheinlichkeit, dass du stark vom „echten“ Mittelwert der Grundgesamtheit abweichst.

Die Berechnung der Varianz für eine Stichprobe ist also im eigentlichen Sinne nur eine Abschätzung für die „wahre“ Streuung der Grundgesamtheit.

Die Formel nur mit n würde die Varianz der Grundgesamtheit unterschätzen. Eine bessere Näherung erhält man, wenn durch n-1 statt durch n teilt.

Wenn du nur die Daten deiner Stichprobe untersuchst, nutzt du 1/n (man spricht von empirischer Varianz). Dann kannst du allerdings keine Aussage über die Grundgesamtheit treffen, also z.B. Studierende mit Kind. Du kannst nur eine Aussage über die Studierenden mit Kind treffen, die Teil deiner Umfrage waren.

Wenn du aus deiner Stichprobe allerdings auf die Grundgesamtheit schließen möchtest, dann nutzt du in der Formel 1/(n-1) (man spricht dann von der Stichprobenvarianz).

Zusammenfassung zum Thema Varianz und Standardabweichung:

Die Varianz und die Standardabweichung sind die beiden wichtigsten Streuungsmaße der deskriptiven Statistik.

Die Standardabweichung basiert dabei auf der Varianz. Beide Werte beschreiben, wie weit die Daten um den Mittelwert schwanken.

Da nur die Standardabweichung die gleiche Einheit wie die Ausgangsdaten hat, nutzt man sie zur Interpretation.

Eine kleine Standardabweichung bedeutet, dass die Werte dicht beieinander liegen, während eine große Standardabweichung darauf hinweist, dass die Werte stärker schwanken und somit weiter voneinander entfernt sind.

Wenn du weitere Fragen hast oder dir noch andere Statistik-Themen wünschst, lass es mich in den Kommentaren wissen!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert