Statistik 4.1

(Heute gibt es den letzten Beitrag in dieser Art, denn ab morgen geht’s hier anders lang.) Das Kapitel ist zwar elf Seiten lang, doch diese Anzahl war es nicht, die mich an den Rand des Wahnsinns getrieben hat. Auf einmal tauchen im Text einzelne Buchstaben oder Kombinationen von Zeichen auf, die wie eine Fremdsprache klingen. Um trotzdem alles zu verstehen (sonst kann ich das gar nicht lernen), habe ich mir zusätzliche Bücher gekauft. Diese sind tatsächlich lustig zu lesen, allerdings nur, wenn man sie versteht und die Art des Humors der Autoren (überwiegend männlicher Natur) teilt! (Dazu muß es noch einen eigenen Beitrag geben.) Fürchterlich finde ich, dass für bestimmte Bezeichnungen von verschiedenen Autoren unterschiedliche Abkürzungen verwendet werden. Wie wollen sich die Experten unterhalten, wenn jeder etwas anderes unter h oder f versteht? Bei einem Treffen brauchen sie ja erst mal Stunden, um sich darüber einig zu werden, was was ist oder sein soll. (Eigentlich ist das nicht mein Problem, es sei denn, ich will da ‚mal mitmischen – das wiederum ist jetzt unvorstellbar. Warum das mit den verschiedenen Begriffen so ist wie es ist, hat übrigens Oliver Tacke in dieser Diskussion sehr einleuchtend erklärt.) Im Prinzip kann ich also froh sein, daß es solche Verwickelungen in der Musik nicht (so häufig) gibt und man sich überall auf der Welt mittels Noten verständigen kann. So hatte ich mir das auch für das Fach Statistik gedacht. Ab Seite 40 macht die ganze Sache übrigens etwas mehr Spaß, denn dort wird es interaktiv!

Im Abschnitt 4.1 geht es um absolute und relative Häufigkeiten. Statistische Erhebungen erfassen also Merkmalsausprägungen (Namen, Wohnort, Augenfarbe) und werten sie aus. Es ist klar, dass sich aus vielen Einzelmerkmalen eine Vielzahl von Datensätzen ergeben. Eine bessere Übersicht kann man deshalb durch Verdichtung von Informationen unter Verwendung statistischer Kenngrößen (Lage- und Streuungsparameter, Erklärung kommt wohl später) sowie graphischen Instrumenten gewinnen. Es wird zwischen univariater und multivariater Datenanalyse unterschieden. Bei der univariaten Datenanalyse werden Daten für ein Merkmal ausgewertet. Die multivariate Datenanalyse untersucht den Zusammenhang zwischen mehreren Merkmalen. Der Studienbrief 33209 bezieht sich hauptsächlich auf die univariate Datenanalyse.

Für ein Merkmal X (Nasenform) soll an n Merkmalsträgern (Einzelobjekten) die Merkmalsausprägung (Rüssel, Ömme, …) festgestellt werden. Die Urliste besteht aus den Merkmalswerten x1, …, xn. (Bei nur einem Merkmal heißt sie deshalb univariate Urliste.) In der Urliste können Werte mehrfach auftreten, z. B. bei diskreten Merkmalen (Alter) bzw. wenn die Länge n der Urliste die Anzahl k der Merkmalsausprägungen überschreitet. Das ist bspw. der Fall, wenn man eine Münze mehr als zweimal wirft. Dann erhält man eben mehr als einmal Wappen oder Zahl. Bei stetigen Merkmalen (Gewichte, Längen, Ausgaben) treten gleiche Werte seltener auf, je genauer gemessen wird. In diesem Fall stimmt die Anzahl der realisierten Ausprägungen mit n überein. Dadurch wird es möglich, Daten in Gruppen oder Klassen zusammenzufassen. Man zerlegt dafür 1) den Gesamtbereich der Merkmals ausprägungen in eine (überschaubare) Anzahl von Teilintervallen und ordnet 2) die Daten diesen Teilintervallen zu. Daraus ergeben sich gruppierte/klassierte Daten. (Bis hierher ist das gut verständlich.) So kann man z. B. die Daten aus der Urliste mit Stundenverdiensten für alle Arbeitnehmer im ganzen Land (das könnte die Grundgesamtheit sein) in die Klassen 0 bis <5, 5 bis <10, 45 bis <50 sowie 50 und mehr (das ist eine nach oben offene Klasse, die vielleicht jeder gern hätte) einteilen.

Urlisten mit wachsender Länge n und wiederholten Merkmalswerten werden schnell unübersichtlich. Deshalb wird die Zusammenfassung der Informationen aus den Rohdaten durch die Angabe der Häufigkeiten für die Merkmalsausprägungen (wieviele Rüssel) oder (bei gruppierten Daten) für die Klassenbesetzungshäufigkeiten (wieviele Rüssel über/unter ein, zwei oder fünf Zentimeter) empfohlen.

Für ein diskretes Merkmal mit den Ausprägungen a1, …, ak ist die absolute Häufigkeit hi := h (ai)   i = 1, 2, …, k für die Ausprägung ai der Anzahl der Elemente der Urliste, die mit dem Wert ai übereinstimmen. (Was bedeutet der Doppelpunkt vor dem Gleichheitszeichen?) Ein Nachteil absoluter Häufigkeiten besteht in der Abhängigkeit von der Länge n der Urliste. Um die Häufigkeiten in Datensätzen mit verschiedenem Umfang direkt vergleichen zu können, werden absolute in relative Häufigkeiten verwandelt. Dafür muß man die absolute Häufigkeit durch den Umfang n der Beobachtungsreihe teilen. Formelhaft sieht das so aus: fi := f(ai) = h(ai) geteilt durch n   i=1, 2, …, k   S. 34, 4.2. (Es hat zugegebenermaßen etwas lange gedauert, ehe ich den Sinn und die Formel verstanden habe. Möglich wurde das übrigens nur durch die zusätzlichen Comics aus anderen Büchern.) Die so repräsentierten Anteile werden meistens in Prozentwerten angegeben (Multiplikation mit 100). Das Beispiel 4.1 auf S. 35 zeigt, wie Häufigkeiten in tabellenform dargestellt werden können.Als Ergebnis sieht man dort Häufigkeitsverteilungen für absolute und relative Häufigkeiten.

Empirische Verteilung nennt man die Häufigkeitsverteilung für ein Merkmal X. Absolute Häufigkeiten werden zu n und relative Häufigkeiten zu 1 addiert. (Im Studienbrief steht, daß das offensichtlich wäre. Ich habe nicht verstanden, wo auf einmal die 1 herkommt und wieso man dabei überhaupt etwas addieren soll.) Als es noch keine PC-Programme gab, wurden bei den absoluten Häufigkeiten statt Zahlen nur Strichlisten verwendet. (Das kenne ich auch noch. In Greifswald hieß das Fach allerdings Diagnostik statt Statistik und war außerordentlich praxisbezogen.) Diese Verfahrensweise ist aber nur für kleinere Werte h (ai) geeignet. (Ahh, in der Fußnote! auf S. 34 steht, daß die Notation hi für absolute und fi für relativ/fe Häufigkeiten verwendet wird. Da fällt mir nur zu ein: Besser spät als nie.)

Die graphische Darstellung von Häufigkeitstabellen erfolgt in Form von Diagrammen.  Bei einem Kreisdiagramm stellen die Kreissektoren die absoluten oder relativen Häufigkeiten dar. Der Mittelpunktswinkel alpha1 definiert die Größe des Kreissektors. Er ist bei beiden Häufigkeiten (hi und fi) durch fi mal 360° gegeben. (Sind jetzt beide fi gleichermaßen gemeint und wenn ja, wo bleibt das hi?) Bei einem Stabdiagramm werden die Häufigkeiten durch vertikale dünne Stäbe/Striche dargestellt. In einem Säulen-/Balkendiagramm sind vertikale dicke Rechtecke die Häufigkeiten, wobei ein Balkendiagramm ein um 90° gedrehtes Säulendiagramm ist. Längere Kategorien können dort besser geschrieben werden, ansonsten ist es möglich, für lange Namen Codes zu verwenden.

Dreidimensioniale Diagramme haben bei Kreisdiagrammen oft nur dekorativen Charakter (für Zeitung oder TV). Die dritte Dimension ist dort ohne inhaltliche Bedeutung und sollte bei Kreisdiagrammen aus Gründen der Effekthascherei vermieden werden. (Gut zu wissen!) Bei 3D-Säulendiagrammen hingegen kann die dritte Dimension inhaltlich interpretierbar sein, z. B. bei zwei Häufigkeitsverteilungen in einer Graphik (also zwei Säulen neben- oder hintereinander wie in der Abb. 4.8). Achtung, wenn bei Diagrammen oder Zeitreihen die vertikale y-Achse nicht mit 0 beginnt! Selbst kleine Veränderungen können nämlich beachtlich wirken, wenn erst bei 10% begonnen wird. (Toll! Da werde ich gleich mal drauf achten.)

Amtliche Statistiken verwenden interaktive Datenkommunikation, indem sie die Häufigkeitsverteilungen mit Landkarten verknüpfen, wie in Abb. 4.2 auf S. 36. Die Karte zeigt dabei die gruppierten Daten und die Säulendiagrammdarstellung die Originaldaten. (Nein, was es nicht alles gibt. Das wird doch nicht am Ende noch Spaß machen?)

Das Beispiel 4.1 auf S. 37 hat mich zuerst rasend gemacht. Nachdem ich den Sinn der Sache überhaupt erst mal verstanden habe, ist es aber ganz einfach. Ich habe alles nachgerechnet – und die Ergebnisse stimmen (also, bei mir, daß sie im Buch richtig sind, davon bin ich sowieso ausgegangen). Es geht dort um die Ergebnisse des ZDF- Politikbarometers vom 16.10.2009. Die „Sonntagsfrage“ im ZDF wird im Zwei-Wochen-Turnus gestellt nach dem Motto: Welche Partei würden sie wählen, wenn morgen Wahl wäre. Die Ausprägungen a1, …, a6 stehen demnach für sechs Parteien. Außerdem werden die absolute Häufigkeit h(ai), die daraus abgeleitete relative Häufigkeit f(ai) (i = 1, …, 6), die Anzahl der gefragten Leute = Stichprobe von n = 1021 gegeben. Die Rechnung sieht so aus: h(ai)/383 geteilt durch n = 1021 = f(ai)/0,375 (hier wird auf drei Dezimalstellen gerundet. Soll heißen: 37,5 % der Wähler haben sich für die erste Partei entschieden. (Dolles Ding, das gefällt mir hier!) Bei der graphischen Darstellung der Ergebnisse sieht man, daß sich im Kreisdiagramm die Anteile mit ähnlicher Größe nicht so gut unterscheiden lassen, wie in Stab- oder Säulendiagrammen.

Bei klassierten Datendarstellungen werden die Häufigkeiten auch mit Säulen dargestellt. Histogramm = Die Säulenbreite orientiert sich dabei an der Breite der Klassen. Die Rechtecke sollen die Besetzungshäufigkeiten repräsentieren und schließen direkt aneinander an. Ein direkter Vergleich der Rechtecke anhand ihrer Länge ist aber nur bei gleicher Klassenbreite möglich (= Klassenbesetzungshäufigkeiten), siehe Abb. 4.5 auf S. 39. Histogramme visualisieren die Klassierung der ursprünglichen Individualdaten. Nachteil: der optische Eindruck hängt wesentlich von der Klasseneinteilung (= Breite der Klassen) und von der Festlegung der Anfangspunkte der Klassen ab. Als Alternative werden Kerndichteschätzer verwendet. Sie stellen eine „Verallgemeinerung des Konzepts der Histogramme“ dar. Die Treppenfunktion (= der obere Rand des Histogramms) wird bei Kerndichteschätzern durch eine stetige Funktion ersetzt. (Nun, den Ersatz durch eine Funktion habe ich nicht verstanden. Im Moment muß mich das aber nicht beunruhigen, da dies nur am Rande erwähnt wird.)

Beispiel 4.2, S. 40 Visualisierung von Altersstrukturen. Bei Bevölkerungszahlen mit großen Grundgesamtheiten ist es angebracht, Klassen zu bilden, z. B. nach Jahrgängen oder Altersklassen, die mehrere Jahre umfassen. Das Statistische Bundesamt präsentiert im Internet eine interaktive Visualisierung (das macht Spaß, aber nicht zu lange spielen…) zur Bevölkerungsentwicklung zwischen 1950 und 2060. Das sind zwei vertikal und spiegelbildlich zueinander angeordnete Histogramme (sieht aus wie ein Baum). Diese weisen die Anzahl der Männer und Frauen für 100 Jahrgänge (0 bis 100 Jahre) aus (Jopi Heesters hätte dort keine Chance gehabt und weil es grad so schön hierher paßt, gibt es in einem Beitrag aus dem Graphitti-Blog natürlich auch eine Visualisierung). In der Abb. 4.6 auf S. 41 erkennt man das Verhältnis von alten zu jungen Menschen (= „Altersquotient“). Dieser Quotient „wird in der Wirtschafts- und Sozialpolitik zur Quantifizierung von Veränderungen von Bevölkerungsstrukturen verwendet“. In England werden neben der Bevölkerungspyramide auch interaktive Landkarten verwendet.

Stapelung von Häufigkeiten. Bei ungruppierten Daten ermöglicht die Schraffierung oder Färbung von Flächen eine optische Unterscheidung, z. B. „Komponenten, deren Längen sich bei absoluten Häufigkeitsverteilungen zum Umfang n des Datensatzes bzw. bei relativen Häufigkeitsverteilungen zu 1 addieren“. (So, wenn mir das noch jemand erklären könnte, warum hier plötzlich addiert wird?) Der Vorteil dieser Darstellung liegt darin, daß mehrere univariate Verteilungen innerhalb einer Graphik präsentiert werden können, weil jede empirische Verteilung durch eine Säule/einen Balken dargestellt wird. Bei gruppierten Daten ist das Übereinanderstapeln von Häufigkeiten eine Alternative zum Histogramm. „Besetzungshäufigkeiten für einzelne Klassen werden anhand einer einzigen Säule/Balken visualisiert“, z. B. wenn Personen einer Stichprobe drei Gewichtsklassen zugeordnet werden (a1 – normalgewichtig, a2 – übergewichtig, a3 – fettleibig). Die relativen Besetzungshäufigkeiten für drei Klassen können in einer einzigen dreiteiligen Säule dargestellt werden und bei mehreren Stichproben nimmt man mehrere dreiteilige Säulen. Die Zerlegung in mehr als zwei Komponenten wirkt jedoch leicht unübersichtlich. Deshalb sollten numerische Angaben in die Teilabschnitte eingeblendet (Nachteilsmilderung) oder in einer zusätzlichen Tabelle aufgeführt werden. Das Beispiel 4. 3 auf den Seiten 42 bis 44 zeigt Darstellungen der Nationalen Verzehrstudie II von 2008 (es gibt wohl wirklich zu all und jedem eine Statistik). Die Ergebnisse fließen in das europäische Gesundheits- und Ernährungsmonitoring ein. Die Bildung von drei Klassen (a1a3) wird in gestapelte Säulen einschließlich numerischer Werte dargestellt. Das erleichtert die Unterscheidung bei unterschiedlichen Anfangspunkten der zweiten Säule. Auch noch interessant ist, dass 60-70% aller Männer übergewichtig sind. Bei den Frauen sind es in McPom über 60%, in Hamburg hingegen unter 40%. Wer im Glashaus sitzt…

Quelle: Mittag, H.-J. (2011): Statistik. Eine interdisziplinäre Einführung. Kurseinheit 1: Beschreibende Statistik. Studienbrief 33209. (S. 33-44). Hagen: FernUniversität.

Advertisements

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s