Statistik 2.2

(Gestern wurde hier in einem Kommentar beschlossen, statt der Studienbriefe diese Zusammenfassungen zu lesen. Das freut mich natürlich, auch wenn es sich meistens um reinen Galgenhumor handelt. Ich würde mich noch mehr freuen, wenn auch die Mailschreiber trotzdem selber lesen und dann darüber diskutieren würden, weil ich möglicherweise nicht alle Aspekte erwische, die für das Verständnis wichtig sind. Also, haut rein! :))

Merkmalsklassifikationen und Skalen (die gibts auch in der Musik). Merkmale können in Typen nach verschiedenen Kriterien eingeteilt werden, z. B.  nach der Anzahl der Ausprägungen. Es wird zwischen diskreten und stetigen Merkmalen unterschieden. Diskrete Merkmale (klingt ja etwas geheimnisvoll) haben endlich viele Ausprägungen (es müßten demnach alle Nasenformen abzählbar sein), z. B. Fachsemester, Güteklassen, Alter, Familienstand. Bei stetigen Merkmalen bilden die Ausprägungen ein Intervall, Zwischenwerte gelten auch (wofür?), z. B. Zeitangaben, Langen, Gewichte, Bruttoeinnahmen, Mietpreise und, jetzt kommts, hypothetische Konstruktionen (wie der “ IQ“). Jedes stetige Merkmal kann in diskrete Variablen überführt werden (warum sollte ich das machen?), nämlich durch Rundung oder Gruppierung, z. B. Einkommen in Klassen erfassen, ohne Euro und Cent anzugeben, was einen Informationsverlust bedeutet (ah, klar). Die Klassenmitten repräsentieren die Klasse (wie in der Schule). Klassen werden für stetige Merkmale bei größeren Datensätzen gebildet (ab welcher Größe?), innerhalb der Klasse kann dann aber nicht mehr differenziert werden (auch aus der Schule abgeguckt).

Merkmale können zweitens nach der Art der verwendeten Messskala (ein ß wäre mir lieber) klassifiziert werden. Es gibt die Nominalskala (sagen wir mal a-moll-Tonleiter dazu), in der die Ausprägungen eines Merkmals durch Namen oder Kategorien dargestellt werden. Differenzen oder Quotienten sollte man hier nicht bilden, außerdem liegt keine natürliche Rangordnung vor. Aus den Beispielen wird das nicht klar oder ich sollte mir besser schnell abgewöhnen, um die Ecke zu denken: Studienfach, Branche, Partei, Religion, Geschlecht. Ein Satz, der alles sagt: „Nominalskalierte Daten sind Daten, die anhand einer Nominalskala erfaßt werden“ (S. 14/15). Ordinal- oder Rangskalen (das sind die harmonischen Tonleitern) haben eine natürliche Rangordnung. Die Abstände zwischen den Stufen sind nicht direkt vergleichbar, z. B. militärischer Rang, Bildungsabschluß, Temperatur (kalt, warm) oder Schulnoten. (Wieso sind die Abstände nicht vergleichbar?) Bleiben noch die metrischen (musikalisch: melodischen) oder Kardinalskalen (der Kardinal spricht schwedisch, verstehe). Hier können Differenzen zwischen Merkmalsausprägungen sinnvoll interpretiert werden. Zum leichteren Verständnis gibt es weitere Unterteilungen in Intervallskalen (schon wieder Musik) ohne natürlichen Nullpunkt (Temperatur diesmal in °C), Verhältnis- bzw. Ratioskalen mit natürlichem Nullpunkt (Geschwindigkeit) und erlaubter Division sowie als Krönung die absolute Skala als Spezialfall der Verhältnisskala. Die hat nämlich nicht nur einen natürlichen Nullpunkt, sondern auch noch eine natürliche Einheit, z. B. die Anzahl der Fachsemester im Studium. Wenn die Nominalskala das niedrigste Niveau und die Verhältnis/Absolutskala das höchste Niveau hat, dann verstehe ich die Begründung des nächsten Satzes nicht: zulässige Operationen können auch auf Daten aller höheren Niveaus angewendet werden (bis dahin ist es noch logisch), weil ein ordinalskaliertes Merkmal auch auf einer Nominalskala gemessen werden kann (die hat doch ein niedrigeres Niveau und kein höheres!). Das geschieht immer mit Informationsverlust (bei mir jetzt auch). Beispiele: Einkommen in Euro und Cent gehört in die metrische Skala oder kann über Einkommensklassen ordinalskaliert  gemessen werden (hier ist der Infoverlust klar).

Eine dritte Möglichkeit, Merkmale zu klassifizieren besteht darin, den Typ der Merkmalsausprägungen zu unterscheiden, also ob es eine Kategorie oder Zahl ist (das klingt nun wieder einfach). Bei qualitativen Merkmalen sind die Merkmalsausprägungen (inhaltliche) Kategorien und spiegeln Qualität wider, aber kein Ausmaß oder Intensität. Es wird zwischen nominalskalierten (mit ungeordneten Kategorien wie Religion) und ordinalskalierten (mit geordneten [ordinal – ordnen!] Kategorien wie Güteklassen von Lebensmitteln) unterschieden. Wenn hier Zahlen auftauchen, z. B. 1 = ledig, 2 = verheiratet, dann nur als Etikett (stimmt, das ist lustig, die Ehe als Etikett). Man kann damit nicht rechnen (ich kugel mich gleich vor Lachen, aber, das meint der Autor bestimmt ganz anders). Bei quantitativen Merkmalen sind die Ausprägungen „echte“ Zahlen. Metrisch skalierte Merkmale sind immer quantitativ.

Quelle: Mittag, H.-J. (2011): Statistik. Eine interdisziplinäre Einführung. Kurseinheit 1: Beschreibende Statistik. Studienbrief 33209. (S. 13-16). Hagen: FernUniversität.

Advertisements

2 Gedanken zu „Statistik 2.2

  1. Bei stetigen Merkmalen bilden die Ausprägungen ein Intervall, Zwischenwerte gelten auch (wofür?)
    => Die Eigenschaft kannst du später brauchen, zum Beispiel bei der Mittelwertbildung. Schreibst du in einer Klausur etwa eine 1,0 und eine 2,0, könntest du ja sagen: „Im Mittel habe ich eine 1,5.“ Die gibt es aber als diskreten Wert gar nicht im Notenspektrum.

    Jedes stetige Merkmal kann in diskrete Variablen überführt werden (warum sollte ich das machen?)
    => Weil es übersichtlicher (oder einfacher zu berechnen oder einzusortieren) werden kann. Wie bei den Noten zum Beispiel. Man könnte da auch eine stetige Menge nehmen und Noten wie 1,73 oder 1,74 (oder irgendwas dazwischen) vergeben. Ob das wohl in der Praxis sinnvoll wäre?

    Klassen werden für stetige Merkmale bei größeren Datensätzen gebildet (ab welcher Größe?)
    => Das liegt prinzipiell im Ermessensspielraum des Statistikers, aber ich meine mich zu erinnern, dass es da auch so etwas wie eine Faustformel gab.

    Es gibt die Nominalskala (sagen wir mal a-moll-Tonleiter dazu)
    => Jein würde ich sagen. Bei Tönen gibt’s ja eigentlich schon so etwas wie eine vereinbarte Ordnung/Reihenfolge (bedingt durch die jeweiligen Frequenzen eigentlich sogar „natürlich“). Bei „rot“, „blond“ und „brünett“ sieht’s anders aus – obwohl man das sicher auch durch wie auch immer geartete Kriterien (Lieblingshaarfarbe bei Frauen oder was weiß ich) in eine Rangfolge bringen kann.

    Die Abstände zwischen den Stufen sind nicht direkt vergleichbar, z. B. militärischer Rang, Bildungsabschluß, Temperatur (kalt, warm) oder Schulnoten. (Wieso sind die Abstände nicht vergleichbar?)
    => „sehr gut“ ist besser als „gut“ ist besser als „befriedigend“, … Klar, es wird oft so getan, als sei das intervallskaliert mit 1,0 und 2,0 und 3,0… Aber jemand, der gerade noch so eine 2,0 bekommt, hat dieselbe Note wie jemand, der fast eine 1,0 bekommen hätte. Wenn ich nun den „Abstand“ dieser beiden mit der 2,0 zu einem Dritten mit vielleicht einer 3,0 ermittele, scheint der bei beiden identisch zu sein, obwohl er das ja gar nicht ist.

    Wenn die Nominalskala das niedrigste Niveau und die Verhältnis/Absolutskala das höchste Niveau hat, dann verstehe ich die Begründung des nächsten Satzes nicht: zulässige Operationen können auch auf Daten aller höheren Niveaus angewendet werden (bis dahin ist es noch logisch), weil ein ordinalskaliertes Merkmal auch auf einer Nominalskala gemessen werden kann (die hat doch ein niedrigeres Niveau und kein höheres!).
    => Na, du kannst Skalen höheren Niveaus in solche mit niedrigerem Niveau umwandeln und dann damit alles machen, was man halt mit den niedrigen auch darf. Vergleich das beispielsweise mit natürlichen Zahlen (1, 2, 3, 4, …) und rationalen Zahlen (alle Brüche). Die natürlichen Zahlen sind eine Teilmenge der rationalen Zahlen (Analogie: Die natürlichen Zahlen haben ein niedrigeres Niveau als die rationalen Zahlen). Die natürlichen Zahlen kannst du beispielsweise addieren, das geht dann mit allen Mengen höheren Niveaus auch (ganze Zahlen, rationale Zahlen, reelle Zahlen, …). Bei rationalen Zahlen darfst du beliebig teilen (mit der üblichen Ausnahme „durch Null“), bei natürlichen Zahlen geht das in der Regel aber nicht. Genau wie bei den Skalen…

    Das mit den Etiketten ist in der Anwendung nachher sinnvoll zur Codierung und wird auch in Statistiksoftware wie SPSS angewendet.

  2. Alle Achtung! Deine Beispiele leuchten mir völlig ein und ich habe sie auf Anhieb verstanden. Ich befürchte, in Statistik muß man geradeaus denken können und alles abseits des Weges vergessen. Das klingt sehr nach Margaret. 😦

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s