wissens.dialoge

Verzerrte Studien II: So mach ich mir die Welt … wie sie mir am nützlichsten ist

Inspiriert von der Diskussion beim Lean In Dialog schreibe ich eine Serie über verzerrte Studien — wie man sich Studienergebnisse so bastelt, dass sie nicht (möglichst) die Realität abbilden, sondern das eigene Wunschergebnis. Im ersten Posting dieser Serie ging es darum, dass es in der Forschung einige Freiheitsgrade gibt, die man misbrauchen kann, um Studien verzerrt durchzuführen (und warum das eine schlechte Idee ist). In diesem Beitrag geht es um konkrete Beispiele, wie man auf fragwürdige bzw. unethische Weise Gruppenunterschiede (er)finden kann — unabhängig davon, wie die Realität aussieht.


 

Nehmen wir an, wir haben zwei Gruppen, A und B, die weitgehend vergleichbar sind. Eine Person oder Gruppe ist aus ideologischen oder materiellen Gründen daran interessiert, Gruppe B als benachteiligt zu sehen. Wie kann dieser Eindruck erweckt werden, dass Gruppe B (= Benachteiligungsgruppe) gegenüber A benachteiligt ist, obwohl die Unterschiede nicht existieren, oder die Benachteiligungsgruppe in einigen Bereichen sogar besser gestellt ist?

Im Folgenden habe ich eine kurze Beispielsammlung zusammengestellt. Es gibt weit mehr Möglichkeiten, die hier aber den Rahmen sprengen würden. Einige Manipulationen sind mir selbst untergekommen als ich mir Berichte oder Studien hinter Presseberichten und Tweets angesehen habe. Der Rest stammt aus Unterhaltungen mit anderen Personen. Um das Vorgehen greifbarer zu machen gebe ich ein paar Beispiele aus dem Bereich der Geschlechtsunterschiede. Bei dem Thema gibt es eine Reihe von sehr fragwürdigen bis hoch manipulativen „Studien“. Und im Vergleich mit anderen Themen, wo solche Manipulationen auch stattfinden, hat es den zusätzlichen Charme, dass es ein hochemotionales und explosives Thema ist.

I. Stichprobe Manipulieren

  1. Nur eine Gruppe erheben/ansehen
    Der einfachste Weg, Gruppenunterschiede zu (er)finden, ist, nur die Benachteiligungsgruppe zu erheben. Das klingt erst mal merkwürdig, weil für einen Vergleich zwei Werte notwendig sind. Es klappt aber in der Praxis sehr gut, wenn die Ergebnisse der Benachteiligungsgruppe sehr eindrucksvoll sind oder die Einstellungen bezüglich der anderen Gruppe sehr vorurteilsbehaftet sind.
    Beispiele: Eine Umfrage der “International Federation of Journalists” kam zu dem Schluss, dass Journalistinnen bedrohter von “attacks, bullying, threats, cyber-bullying, rape and abuse” sind. Basis war eine Befragung, die nur an Frauen gerichtet war. Männer, die trotzdem den Fragebogen ausgefüllt haben, wurden einfach ignoriert. Hinterfragt wurde das “bedrohter” selten, trotz Studien die zeigen, dass Männer z.B. häufiger Drohungen erhalten und über 90% aller getöteten Journalisten/innen ausmachen. Ähnliches findet man, wenn z.B. eine Befragung von Schülerinnen durchgeführt wird und Defizite in Mathe und Technik als spezifische Probleme von Mädchen dargestellt werden. Implizit nimmt man dabei an, dass 100% aller Jungen die Fragen 100% richtig beantworten würden — wenn sie den Fragebogen ausgefüllt hätten. Das spielt in die Hand des Vorurteils von “Jungen gut in Mathe und Technik”. Dass dies allerdings nur auf einen Teil der Jungen zutrifft und vermutlich nur sehr wenige fehlerfrei antworten würden, wird dabei ignoriert.
  2. Unterschiedliche Gruppendefinitionen
    Gruppen sind je nach Definition sehr heterogen — es gibt z.B. sehr erfolgreiche Männer, es gibt allerdings auch sehr unerfolgreiche Männer (die z.B. auf der Straße sitzen). Und es gibt sehr viele Personen zwischen beiden Extremen. Man kann leicht die gesuchte Benachteiligung (er)finden, wenn man alle Mitglieder/innen der Benachteiligungsgruppe mit den erfolgreichen Mitgliedern/innen der anderen Gruppe vergleicht.
    Beispiele: Man vergleicht alle Frauen, die versuchen in einem Bereich erfolgreich zu sein, mit den Männern, die in dem Bereich erfolgreich sind. Die Männer, die es nicht geschafft haben, werden dabei ignoriert.
  3. Nicht-repräsentative Gruppenerhebungen
    Für eine repräsentative Befragung, die man auf — z.B. die gesamte Bundesrepublik generalisieren kann — muss die befragte Stichprobe die gesamte Bevölkerung widerspiegeln. Eine Person in der Stichprobe steht für viele Personen in der Population. Ich frage z.B. 2000 zufällig ausgewählte Personen in Deutschland mit deutscher Staatsbürgerschaft, und schließe von den Ergebnissen auf alle Deutschen. Wenn die Datenbasis verzerrt ist, dann bekommt man verzerrte Ergebnisse — relativ egal, wie viele Fälle man erhebt (okay, irgendwann hat man eine Vollerhebung). Und die Datenbasis und damit die Richtung der Verzerrung kann man steuern.
    Beispiele: Eine verzerrte Datenbasis ist ein häufiges Problem von Online-Befragungen (Nachrichtenseiten, Magazinen) oder Beteiligungen an Twitter-hashtags. Ein Grund hierfür ist, dass bestimmte Umfragen oder Events selektiv bestimmte Personen anziehen. Gleiches gilt für den Ort der Erhebung — „der Mann“ und „die Frau auf der Straße“ unterscheiden sich stark je nachdem wo gefragt wird.
  4. Übergeneralisieren
    Interviews können hilfreiche Informationen liefern. Sie gehen ins Detail, machen einen Sachverhalt plastisch und nachvollziehbar. Allerdings sind sie auch sehr aufwändig und Berichte, die auf Interview fokussieren, verwenden entsprechend eher geringe Fallzahlen. Das macht es sehr fragwürdig, von diesen zu generalisieren oder gar Gruppenunterschiede anzunehmen.
    Beispiele: Im Bericht “Generation 35 Plus” wurden bezüglich der Zukunftsaussichten in der Wissenschaft Interviews mit 10 Männern und 10 Frauen durchgeführt. Auf dieser Basis die Situation von Männern und Frauen in der deutschen Wissenschaft (sowie den Erfolg von Fördermaßnahmen) zu betrachten ist dann doch etwas gewagt.
  5. Blick auf die Nachteile lenken und Vorteile ignorieren
    Eine Gruppe hat selten nur Vorteile oder nur Nachteile — meist haben sie beides, z.B. abhängig vom konkreten Themenbereich bzw. Unterthemenbereich. Themengebiete sind oft komplex und man kann Subthemen definieren. Selbst wenn es insgesamt keine Unterschiede auf globaler Ebene gibt, findet man meist welche bei einigen Subthemen — auf die man dann fokussieren kann.
    Beispiele: Am Eindrucksvollsten sieht man dies vermutlich bei der Debatte zu „Frauen in STEM“ (Science, Technology, Engineering, Math). Es wird konkret auf die Studienfächer mit hohem Status geschaut, in denen Frauen unterrepräsentiert sind. Nicht Thema ist, das Frauen in vielen anderen Bereichen in der Mehrheit sind (Psychologie zum Beispiel). Sie stellen außerdem die Mehrheit an deutschen Universitäten dar. Anderes Beispiel ist der Fokus darauf, dass Frauen in Führungsetagen in der Minderheit sind. Dass sie allerdings in Berufen mit hohen Unfall- oder Mortalitätsraten ebenfalls unterrepräsentiert sind wird gerne ignoriert.

II. Antworten Lenken

  1. Verzerrte Fragebögen
    Fragebögen sollten möglichst objektiv sein. Allerdings gibt es auch Fragebögen, die nicht “Geschlechter-fair” sind. Das beinhaltet zum Beispiel a) Fragen zu spezifischen Benachteiligungen der Benachteiligungsgruppe, aber nicht der anderen Gruppe, bis hin zu b) wem welche Fragen gestellt werden.
    Beispiele:
    a) Im Fragebogen aus dem Artikel “Deviant Behavior in Computer-Mediated Communication: Development and Validation of a Measure of Cybersexual Harassment” gibt es mehrere Fragen, die spezifisch nach “cybersexueller Belästigung” gegenüber Frauen fragen, nicht jedoch gegenüber Männern. Personen werden gefragt, ob sie jemals eMails an Mitarbeiter/innen geschickt haben, in denen sie gescherzt haben, dass Frauen weniger Wert sind als Männer, oder ob sie zustimmen, dass man online gefahrlos Vorurteile gegenüber Frauen äußern kann. Fragen in Gegenrichtung fehlen. Hier bekommt eine Gruppe fast automatisch einen höheren Wert in “cybersexueller Belästigung”. Ähnlich wenn man Beispiele verwendet, die spezifisch für eine Gruppe sind. Einen Mann wird man selten “Schlampe” oder “Miststück” nennen, “Arschloch” dagegen schon. Entsprechend kann man mit der richtigen Auswahl der Beispiele schön die Antworten lenken. Um es einmal mit einem (hoffentlich) fiktiven Beispiel auf die Spitze zu treiben: Man könnte in einem Flüchtlingslager Männer fragen, ob sie BHs benötigen, und anhand der (vermutlich) 99.9% Nein-Antworten argumentieren, dass Männer keine Kleidungsspenden benötigen. Berichtet man nachher nur, dass Männer kein Interesse an Kleidungsspenden haben, werden Leser/innen vermutlich leicht andere Gründe für diese Ablehnung generieren als eine manipulative Befragung.
    b) Man kann mit einem zugrundeliegenden Modell versuchen zu rechtfertigen, dass man bestimmte Fragen nur bestimmten Personen stellt. Zum Beispiel könnte man (fälschlicherweise) der Meinung sein, dass z.B. in Partnerschaften nur Männer Aggressoren und nur Frauen Opfer sind. Dann würde es Sinn machen lediglich Männer über Tätererfahrungen und lediglich Frauen über Opfererfahrungen zu befragen. Bei diesen Studien kann dann allerdings auch nichts anderes gefunden werden, als dass Männer Täter und Frauen Opfer sind. Ein umgekehrtes Ergebnis ist nicht möglich. Außerdem kann nicht gefunden werden, dass Frauen auch Frauen gegenüber und Männer auch Männern gegenüber aggressiv sein können.
  2. Antwortmöglichkeiten einschränken
    Indem man die Skalen einschränkt, kann man bestimmte Antworten erzwingen, insbesondere wenn die Personen antworten müssen (z.B. in einer digitalen Befragung mit Vollständigkeitscheck) und es keine “weiß nicht” oder “ist mir egal” Option gibt. Zwar können Personen auch die Befragung abbrechen, aber sofern das nicht zu viele Personen sind, wird die Abbrecherquote (wenn sie überhaupt berichtet wird) vermutlich kaum auffallen.
    Beispiele: In dem “Girls‘ Attitudes Survey 2013” wurde z.B. nach Jobchancen gefragt — auf einer Skala von “Männer und Frauen haben die gleichen Chancen” bis “Männer sind bevorteilt”. Bei einer solchen Antwortskala ist es nicht möglich, Frauen als bevorteilt zu nennen. Außerdem sorgt die Tendenz, Antworten am Skalenrand zu vermeiden, zu einem zusätzlich verzerrten Ergebnis. Man hat also eine automatische Tendenz zu “Männer sind bevorteilt”. Allein weil der Raum der Antworten die Möglichkeiten schlicht nicht abbildet — “gleiche Chancen” müsste die Mitte sein, während “Frauen sind bevorteilt” den neuen Endpol bilden müsste.
  3. Suggestivfragen
    Suggestivfragen müssen nicht immer mit Drohungen à la “Als jemand der weiterhin in dieser Organisation arbeiten möchte, sind Sie doch auch der Meinung, dass …” daherkommen. Es reicht, bestimmte Sachverhalte als Fakt darzustellen und als Basis für die Frage zu setzen.
    Beispiele: Im “Girls‘ Attitudes Survey 2013” wurde gefragt: “Ich mache mir sorgen über den Einkommensunterschied (Pay Gap) zwischen Männer und Frauen”. Hier wird ein Einkommensunterschied als Fakt dargestellt. Und wenn der Pay Gap existieren würde, wer würde sich da keine Sorgen machen? Aber das ist eine Behauptung — und ein subtiler Weg um Personen nicht nur zu “befragen”, sondern sie gleichzeitig zu indoktrinieren.
  4. Schwammige Formulierungen
    Befragte müssen wissen, was mit den Fragen und Begriffen gemeint ist. Schwammige Begriffe ohne Definitionen können leicht zu einer fehlerhaften Repräsentation eines Problems führen — Mehrdeutigkeit ist hier keine Tugend.
    Beispiele: Was ist z.B. mit “sexueller Belästigung” gemeint? Je mehr Interpretationen die Person machen muss, desto mehr Spielraum gibt es in den Antworten — mit denen man dann kreativ umgehen kann. Z.B. indem man bei der Diskussion der Ergebnisse dann Definitionen verwendet, welche die Befragten vermutlich nicht verwendet haben.
  5. Stichprobe aufweichen
    Wie oben beschrieben steht in einer repräsentativen Umfrage eine Person der Stichprobe für viele Personen in der Population. Jede Person steht damit für einen Teil all derer, auf die später generalisiert wird. Entsprechend sind die Erfahrungen und Sichtweisen der konkret befragten Personen relevant — nicht die Erfahrungen und Sichtweisen von anderen Personen. Anders gesagt, wenn man wissen will, wie häufig z.B. ein bestimmtes Verhalten in der Bevölkerung ist, kann man jede Person der repräsentativen Stichprobe fragen, ob sie es jemals erlebt hat. Das gibt einem eine relativ gute Schätzung. Fragt man sie dagegen, ob jemand, den sie kennen, das erlebt hat, wird die Zahl extrem aufgebläht. Schlechter kann man es nur noch machen, wenn man zusätzlich noch Gedankenlesen voraussetzt (à la “andere fühlen/denken …”).
    Beispiele: Auch etwas, was in einigen “Studien” angewendet wird: “Kennen Sie jemanden, die …” oder “Meine Freundinnen …” etc.
  6. Nicht-repräsentative Erfassung des Ausmaß des Problems
    Wenn man nach konkreten Erlebnissen fragt, sollte man auch genau nach der Häufigkeit fragen. Die Häufigkeit richtig zu schätzen ist allerdings nicht leicht. Insbesondere negative Ereignisse sind häufig leicht erinnerbar und es ist möglich, dass die Leichtigkeit des Abrufes die Schätzung der Häufigkeit solcher Ereignisse beeinflusst. Und insbesondere mit einer Selbstselektion der Stichprobe bekommt man hier leicht ein verzerrtes Bild.
    Beispiele: Nehmen wir hier ausnahmsweise mal den Straßenverkehr als Vergleich. Mit genügend Zeit auf der Straße werden die meisten Personen kritische Situationen erlebt haben — Unfälle oder Beinahe-Unfälle, oft durch “Idioten” oder “Rowdies“. Befragt man Personen nach solchen Erlebnissen oder startet einen Twitter Hashtag wie #aufprall (gehen wir mal davon aus, dass dieser angenommen wird), kann man leicht den Eindruck bekommen, dass dies ein massives und für jede Person alltägliches Problem ist. Trotzdem sind die Straßen kein Demolition Derby/Stockcar Rennen. Die allermeisten Autofahrer/innen fahren vernünftig. Bei der Erinnerung an negative Ereignisse werden diese hunderte und tausende von vernünftigen Autofahrern/innen aber ausgeblendet. Was im Straßenverkehr einfach zu sehen ist, ist bei sozialen Verhaltensweisen schwerer wahrzunehmen.
  7. Nicht-repräsentative Erfassung der Ursachen eines Problems
    Es ist auch relevant von wem konkret das Problem ausgeht. Es macht einen gewaltigen Unterschied, ob das Problem von einer kleinen Anzahl von Personen ausgeht, oder ob ein Standardverhalten ist. Oder ob ein bestimmtes Problem, unter dem eine Gruppe leidet, nur von Nicht-Gruppenmitgliedern/innen verursacht wird, oder auch von Mitgliedern/innen der Gruppe selbst. Hier wird oft stillschweigend vorausgesetzt, dass es nicht-Gruppenmitglieder sind, die ein Problem darstellen. Das mag logisch klingen — wieso sollte sich eine Gruppe sich selbst schädigen? Hierbei wird allerdings ignoriert, dass wir es mit Individuen zu tun haben, die aufgrund der Betrachtung aufgrund eines Merkmales als Gruppe definiert wurde. Die Interessengruppe mag Vorteile davon haben, dass das Problem von allen Nicht-Gruppenmitgliedern/innen ausgeht. Ob das allerdings der Fall ist muss man erheben. Und wird das nicht erfasst ist es unwahrscheinlich, dass effektive Lösungsstrategien gefunden werden.
    Beispiele: Im Straßenbeispiel — sind es “fuck-ups”, die fast jedem Autofahrer irgendwann mal durch einen Moment Unachtsamkeit passieren? Ist es eine kleine Minderheit von Personen, die mit Autos nicht umgehen können? Gibt es eine kleine Menge an Soziopathen/innen, die absichtlich eine Gefahr für andere darstellen? Oder um den Bogen wieder auf Geschlechtsunterschiede zu bringen: Im “Girls‘ Attitudes Survey 2013” wurde zum Beispiel gefragt, ob die Mädchen negative Kommentare über ihr Aussehen erhalten — nicht dagegen vom wem dies ausgeht. Das wurde einfach vorausgesetzt. Geht das wirklich nur (oder auch nur größtenteils) von Jungen aus? Oder sind es nicht auch Mädchen die sich über das Aussehen ihrer Klassenkameradinnen lustig machen?

III. Ergebnis Misrepräsentieren

  1. Kreative Antwortzusammenfassung
    textMan wird Ergebnisse immer zusammenfassen müssen, allerdings kann man damit das Bild auch sehr schön verzerren. Man kann Sachverhalte leicht extremer darstellen, als sie sind, indem man Skalen mit einer differenzierten Befragung einfach in ja/nein zusammenfasst und dabei impliziert, als hätten die Befragten auch so geantwortet. Eine Antwortverteilung, bei der die meisten Personen nur leicht zustimmen (z.B. eine 3 auf einer Skala von 1-6 geben), wird bei einer Reduzierung auf “Problem: ja/nein” so zu einem “Ja, das ist ein Problem” oder „die Mehrheit lehnt es ab“.
    Beispiele: Das animierte Bild oben rechts in diesem Absatz stellt das Vorgehen graphisch dar — die Antworten wurden mit einer 6-stufigen Ablehnungs-Zustimmungs-Skala erfasst. Später wurde mit den Endpunkten argumentiert. Zwar gibt es mehr Ablehnung, allerdings ist das Bild doch etwas differenzierter als „die Meisten lehnen es ab“.
  2. Unterschiede kaschieren
    Einige Begriffe sind mehrdeutig und werden leicht unterschiedlich verstanden. Was heißt zum Beispiel “gleich”?
    Beispiele: Standardbeispiel ist hier der oft angenommene Einkommensunterschied von Männern und Frauen für „gleiche“ Arbeit. Was heißt “gleiche Arbeit” in dem Zusammenhang? Man kann argumentieren, dass z.B. alle Orchestermusiker Musik im Orchester spielen. Das ist die “gleiche” Arbeit. Trotzdem gibt es einen Unterschied zwischen einem Triangelspieler und der ersten Geige. Ebenso gibt es bezüglich der Arbeit eine Reihe von Unterschieden, die einen Großteil der Gehaltsunterschiede erklären: Vollzeit oder Teilzeit, Berufsfeld, Arbeitsstunden (inkl. Überstunden), Kontinuität der Arbeit, historische Entwicklungen, etc. pp. Hier kann man mit der “richtigen” Verwendung des Begriffes “gleich” schön manipulieren — insbesondere, wenn man die Begriffe „unbereinigter Einkommensunterschied“ und „bereinigter Einkommensunterschied“ nicht erläutert.
  3. Vorstellungen mit der Realität gleichsetzen
    Angst ist real, sehr real für die Personen, die sie verspüren. Was aber häufig interessiert ist, ob das Ereignis auch tatsächlich eingetreten ist. Zwar gibt es Gruppen, die durchaus Vorteile haben, wenn große Teile der Bevölkerung unbegründet Angst haben. Studien sollten sich allerdings auf die tatsächlichen Vorkommnisse konzentrieren. Eventuell könnten diese Studien dann dazu beitragen, unbegründete Angst zu reduzieren.
    Beispiele: Studien die nach Befürchtungen fragen und häufig welche finden, obwohl das tatsächliche Risiko minimal ist. Die eigentliche Schlussfolgerung müsste dann nicht sein, das Risiko weiter zu reduzieren, sondern mit den Fehlvorstellungen aufzuräumen. Statt dessen schleicht sich in die Diskussion dann ein „viele haben Angst vor dem Problem, das muss man ernst nehmen und etwas gegen das Problem unternehmen“.

Die hier vorgestellten Methoden sind nur ein paar der Möglichkeiten, die Personen oder Organisationen haben, um die gewünschten Gruppenunterschiede zu (er)finden. Ein paar der Methoden mögen abstrus klingen, weil bei einer kritischen Betrachtung sofort offensichtlich ist, dass manipuliert wurde.

Aber insbesondere dann, wenn solche “Studien” direkt von Interessengruppen durchgeführt und verbreitet werden, ist eine solche kritischen Betrachtung oft nicht gegeben. Dann müssten Personen mit Kenntnis von wissenschaftlichen Forschungsmethoden über die Studie schauen und diese kritisch diskutieren. Das setzt wiederum voraus, dass genaue Informationen über die Studie zugänglich sind (z.B. Informationen wer wann wo wie befragt wurde sowie Zugriff auf den Datensatz) und das eine offene Diskussion möglich ist. Beides ist je nach beteiligten Gruppen oder Emotionalität eines Themas nicht immer gegeben.

Anstatt eine kritische Auseinandersetzung mit einem (wohlmöglich) ernsten Problem anzuregen, werden die Ergebnisse dieser Studien dann oft über oberflächliche Reportagen und Twitter-140-Zeichen Meldungen verbreitet. Sie dienen dann als “outrage porn” für die Verbreiter/innen, während die eigentlichen Probleme fehlrepräsentiert werden und nur Interessengruppen daraus für sich Vorteile ziehen.

Das solche Tricks existieren entwertet übrigens weder die Wissenschaft noch die von ihr verwendete Statistik. Im Gegenteil. Die Aussage: “Lügen, verdammte Lügen, und Statistik” mag nett klingen (insbesondere wenn man der Ansicht ist, dass Statistik trocken und kompliziert ist). Diese Aussage ist aber unzutreffend. Es kommt bei wissenschaftlichen Untersuchungen und Statistik darauf an, die inhärenten Verzerrungen zu kennen und diese entsprechend in die Interpretationen mit einzubeziehen. Gute Wissenschaft macht dies und (häufig) werden mangelhafte Studien vor der Publikation in wissenschaftlichen Fachzeitschriften abgefangen.

Wenn allerdings solche Tricks angewendet werden, unterstützt das nicht die Position einer Interessengruppe, es stellt den Zweck für den sie sich einsetzt in Frage: Wenn die Benachteiligung „wirklich“ vorhanden wäre, warum werden dann solche fragwürdigen und unethischen Methoden eingesetzt? Durch solche Tricksereien — die im Zeitalter des Internets und offener Kritik durch professionelle Wissenschaftler/innen und Citizen Scientists vermutlich aufgedeckt werden — schädigen diese Gruppen nicht nur sich selbst. Sie schädigen auch die Personen, für die sie sich — augenscheinlich — einsetzen.

Im nächsten Teil (in ca. 2 Monaten) geht es darum, wie man auf Behauptungen in den Medien und von Interessengruppen reagieren kann — speziell, welche Fragen man stellen kann (und sollte).