Statistik 3.2

Wenn ich vom Einkauf einen faulen Apfel mit nach Hause bringe, kann ich nicht sagen: Dieses Geschäft verkauft nur ungenießbares Obst. Es ist vielmehr so, daß meine Auswahl nicht repräsentativ genug war… (oder ich stattdessen einen Obstler hätte nehmen sollen). Was mit Äpfeln schon nicht funktioniert, kann im Leben von Schülern mittlere Katastrophen auslösen. Nach einer kurzen mündlichen oder schriftlichen Befragung wird ein Urteil über die Leistung gefällt, welche gar nicht dem tatsächlichen gesamten Wissen des Schülers entsprechen muß. Dieser Gedanke führt mächtig auf’s Glatteis, denn ich könnte mich jetzt dafür entscheiden, überhaupt keine Zensuren mehr zu vergeben. Aber, ob das wirklich schlecht wäre?

Stichprobenauswahl. Ziel der Stichprobe ist es, Aussagen aus einer Teilmenge der Grundgesamtheit (eindeutig festlegen!) abzuleiten. Diese abgeleiteten Aussagen sollen sich wiederum auf die Grundgesamtheit übertragen lassen. Eine Auswahlpopulation ist eine „Population, aus der eine Stichprobe gezogen wird“ (Kann man sich an diese Art von Definition eigentlich gewöhnen?) Enthält die Auswahlpopulation Elemente, die nicht zur definierten Grundgesamtheit gehören, heißt das Overcoverage (wörtlich: Überberichterstattung, paßt ja irgendwie). Werden hingegen einige Elemente gar nicht berücksichtigt, nennt man das Undercoverage. Am Beispiel der Bevölkerungszahlen wird das gut erklärt: Wenn in einer Stadt zum Beispiel Personen wohnen, ohne amtlich gemeldet zu sein oder gemeldete Personen längst verzogen sind.

Warum wird zufällig ausgewählt? Stichproben sollen die Grundgesamtheit abbilden. Bei Zufallsstichproben funktioniert das so: Jedes Element der Grundgesamtheit hat die gleiche Chance, in die Stichprobe zu gelangen. Es bleibt nur eine kleine, kontrollierte Irrtumswahrscheinlichkeit. (Das ist menschlich, würde ich sagen.) Ein Inferenzschluß (Inferenz = durch logische Folgerungen gewonnenes Wissen) ist der Rückschluß von Stichproben-Eigenschaften auf Grundgesamtheitseigenschaften anhand von Test- und Schätzverfahren (die werden hoffentlich noch erklärt). Der Inferenzschluß ist allerdings Gegenstand der schließenden Statistik (das sagt ja schließlich schon das Wort). Nachteil des Inferenzschlusses: Es wird nicht die gesamte Info der Grundgesamtheit widergegeben, sondern nur die Teilinformation der Stichprobe = Stichprobenfehler. Stützt sich der Inferenzschluß auf eine nicht-repräsentative (ab wann ist etwas repräsentativ?) Stichprobe, kommt zum Stichprobenfehler noch eine systematische Verzerrung = Auswahlbias (aua, das klingt mächtig nach Muskelkater). So entstehen grobe Fehlschlüsse. Als Beispiel wird die Frage nach stationären Telefonanschlüssen in Finnland gestellt. Dort hatten im Jahr 2006 40% der Bevölkerung nur noch Mobiltelefone und damit wäre der jugendliche Bevölkerungsteil in der Stichprobe stark unterrepräsentiert.

Die einfache Zufallsstichprobe hat einen Umfang n (ogottogott, jetzt geht’s los mit der Geheimsprache). Hier ist die Stichprobenauswahl nicht nur zufällig, sondern geplant (ein Wunschkind sozusagen). Das heißt, jede Teilmenge der Grundgesamtheit mit n Elementen (ist n eine Zahl?) besitzt dieselbe Auswahlwahrscheinlichkeit. Man soll sich das mit einem Urnenmodell vorstellen (ab auf den Friedhof?). Aus einem Gefäß mit Kugeln oder Losen werden n Elemente auf einmal oder nacheinander gezogen, z. B. Lottozahlen (also doch: n ist eine Zahl). Wenn es Vorinformationen gibt, können sie bei der Auswahl der Stichprobenauswahl herangezogen werden. Das soll zu verläßlicheren Inferenzschlüssen führen.

Die geschichtete Zufallsauswahl ist ein zweistufiges Verfahren und in der Praxis anscheinend sehr beliebt. Dabei wird die Grundgesamtheit in Teilgesamtheiten (= Schichten) zerlegt, die sich nicht überlappen (= disjunkte Teilgesamtheiten). Die Schichten sollen bzgl. des Merkmals in sich homogen (= gleichartig, gleichmäßig zusammengesetzt, wie Milch) und untereinander heterogen  (= verschiedenartig, entgegengesetzt, wie die Ehe unter Papstaufsicht) sein. Aus jeder Schicht wird eine Zufallsstichprobe gezogen. Die Vorinformation ist die Kenntnis des Merkmals (= Schichtungsvariable). Nach dieser Schichtungsvariable wird die Grundgesamtheit in Schichten zerlegt. Als Beispiel wird die Einkommenserhebung von Hochschulabsolventen genannt. Die Schichtung erfolgt dort nach Berufsgruppen. Oder: Das sozioökonomische Panel trennt in der Statistik die Haushalte von Deutschen und Ausländern. (Oh, oh, das verträgt sich nicht mit dem Modul 1B. Wer ist Deutscher und wer Ausländer? Oder die Statistiker legen das einfach anhand einiger Merkmale fest und fangen an zu rechnen. Hmm, anders geht das gar nicht.)

Bei der geschichteten Zufallsauswahl wird die Grundgesamtheit mit N Elementen mittels eines Hilfsmerkmals (= Schichtungsvariable) in L disjunkte Teilgesamtheiten mit einem Umfang N1, N2, …, NL zerlegt (N1+N2+…+NL = N). (Manche Zahlen und Buchstaben müßten eigentlich versetzt nach unten geschrieben werden, aber wie? Ich gehe mal davon aus, daß auch N und L Zahlen sein sollen.) Daraus werden dann Zufallsstichproben des Umfangs n1, n2, …, nL gezogen (n1+n2+…+nL = n). (Also, Großbuchstaben für die Grundgesamtheit und Kleinbuchstaben für die Stichprobe?) Der Anteil der aus einer Schicht entnommenen Elemente heißt ni geteilt durch Ni (i = 1,2,…,L).  (Ich bin ja mal gespannt, wie ich die Formeln in Moodle schreiben soll.) Dieser Anteil kann fest (= proportional geschichtete Stichprobe) oder nicht fest (= disproportional geschichtete Stichprobe) sein. Die Abbildung 3.4 auf S. 28 ist übrigens sehr hübsch! Da gibt es eine Grundgesamtheit von N=50 Elemente(n?, Einzahl oder Mehrzahl, jedenfalls habe ich gezählt und die Anzahl stimmt), die erstens in drei Schichten zerlegt wird. Der Umfang der Schichten beträgt N1=25, N2=15 und N3=10. Aus diesen Schichten wird zweitens jeweils eine zum Schichtumfang proportionale Zufallsstichprobe gezogen, im Beispiel mit einem Auswahlsatz von 20% der Elemente einer Schicht. Das ergibt dann n1=5, n2=3 und n3=2.

Bei einer disproportional geschichteten Stichprobe ist die Auswahlwahrscheinlichkeit der Stichprobenelemente zwar innerhalb der Schicht konstant, aber nicht zwischen den Schichten. Deshalb müssen beim Rückschluß auf die Grundgesamtheit die Stichprobenelemente gewichtet werden. Die Gewichte verhalten sich reziprok (= umgekehrt) zu den Auswahlwahrscheinlichkeiten (?). Disproportionale Schichtungen werden bei sehr dünn (wie dünn?) besetzten Schichten angewendet. (Kein Beispiel?)

Bei der geschichteten Zufallsstichprobe wird die Grundgesamtheit mittels Hilfsmerkmal (= Schichtungsvariable) in disjunkte Teilmengen zerlegt. Manchmal zerfällt eine Grundgesamtheit von vornherein in disjunkte Teilmengen (= Klumpen). Beispiel: Grundgesamtheit sind alle Schüler, Klumpen sind die Klassenverbände (wenn die das wüßten…) oder bei Tieren sind die Klumpen Herden. Das zweistufige Auswahlverfahren nennt sich hier Klumpenstichprobe und sieht so aus: 1) Zufallsstichprobe aus der Menge aller Klumpen ziehen und 2) alle Elemente der ausgewählten Klumpen untersuchen. Als Beispiel ist die Markt- und Meinungsforschung angegeben. Die Stichproben können auch systematisch ausgewählt werden, bspw. durch Quotenauswahl. Dabei wird die Stichprobe durch Vorgabe von Quoten (= verhältnismäßiger Anteil) eines z. B. sozioökonomischen Merkmals erzeugt (Alter, Geschlecht). Die Stichprobe stellt dann nur hinsichtlich dieses Merkmals „eine Art verkleinertes Abbild der Grundgesamtheit“ (S. 29) dar. Dieses Merkmal muß aber nicht unbedingt das eigentlich interessierende Untersuchungsmerkmal sein. (Aber was soll das dann überhaupt?)

Probleme, die sich aus den systematischen Stichprobenauswahlverfahren ergeben können, sind bei Schnell, Hill und Esser (2008) im Kapitel 6.5 nachzulesen. (Oh, das Buch wurde soeben befördert – von unter dem Schreibtisch liegend auf darauf.) Kauermann und Küchenhoff (2011) liefern außerdem eine Darstellung von Stichprobenverfahren einschließlich ein- und mehrstufiger Zufallsauswahlverfahren.

Quelle: Mittag, H.-J. (2011): Statistik. Eine interdisziplinäre Einführung. Kurseinheit 1: Beschreibende Statistik. Studienbrief 33209. (S. 26-29). Hagen: FernUniversität.

Advertisements

2 Gedanken zu „Statistik 3.2

  1. Soweit ich mich erinnern kann, wird disproportional geschichtet, wenn zum Beispiel Haushalte vor einem multikulturellen Hintergrund untersucht werden. z. B. ca. 230 verschiedene Nationalitäten in London, alle Nationalitäten sollen erfasst werden, aber verschiedene Nationalitätengruppen sind natürlich sehr klein (im Vergleich zu ‚großen‘ Minoritätengruppen wie Indern, Carrebeans etc, so dass eine proportionale Schichtung im gesamten range gesehen wiederum keine genügend große Anzahl von Merkmalsträgern in die Auswahl bringen würde, die dann aussagekräftig wären.
    Finde die Zusammenfassung sehr gut.
    Bin meinerseits auf der Suche nach systmatischen Stichprobenauswahlverfahren, da Esser nicht unter meinem Schreibtisch liegt (hab gerade nachgeschaut!) und ich gerne ein Beispiel hätte. 33209 dagegen liegt auf meinem Schreibtisch.

  2. Also, wenn ich mich richtig erinnere, sind die systematischen Zufallsauswahlen diejenigen, bei denen nur der erste Fall (zB aus einer Kartei, Liste oder Datei) zufällig bestimmt wird (zB durch würfeln). Alle weiteren werden systematisch bestimmt (zB jede zehnte Karte oder jeder fünfte Name aus der Liste). Das setzt allerdings Kenntnisse über das Ordnungssystem voraus.

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s