wissens.dialoge

«Zeig mir die Daten!» — Selbst einmal in die Daten schauen

Gute Entscheidungen sind datengestützt. Das heißt nicht, dass man Daten und den darauf basierenden Statistiken blind trauen sollte. Schließlich werden Daten immer auf eine bestimmte Weise gewonnen, mit Fragestellungen und anhand von Stichproben, welche die Daten stark beeinflussen.

Aber wie oft schauen wir tatsächlich auf die Daten selbst?

Meist sind es Zusammenfassungen die wir sehen, oft als Diagramme oder Tabellen in Präsentationen oder Berichten. Oft glauben wir einfach, dass die Daten schon stimmen, die Voraussetzungen erfüllt wurden und die Analysen korrekt durchgeführt wurden.

Nur selten zwingt man andere Personen, die zugrundeliegenden Daten offen zu legen. Aber oft kann man nur so erkennen, welche Annahmen bei der Auswertung mit eingeflossen sind.

Die Frage nach den Daten wird vermutlich nicht verhindern, wenn von der Datensammlung zur Weitergabe Datensätze entfernt werden, aber auch so etwas wird vermutlich eher auffallen. Triviale Hinweise sind z.B. Lücken bei fortlaufenden Nummern oder größere zeitliche Lücken (wenn Datum und Uhrzeit einer Umfrageteilnahme gespeichert werden). Hierbei ist das Fehlen von Werten/Bereichen oft schwer zu bemerken — z.B. das eine Abteilung nicht aufgeführt ist — die Aufmerksamkeit ist auf das gerichtet, was da ist, und nicht auf das, was fehlt.

Hilfreiche Fragen an die Personen, welche die Daten erhoben haben, sind z.B.:

  • «Sind das alle erhobenen Fälle (Personen) oder wurden welche entfernt?»
    (falls Personen entfernt wurden — welche? warum?)
  • «Welche Fälle wurden für die weiteren Auswertungen ausgeschlossen?»
    (z.B. Personen, welche eine Befragung nicht zu Ende ausgefüllt haben/abgebrochen haben)
  • «Wurden Variablen entfernt?»
    (das beliebte Spiel, mehrere Variablen zu erheben (z.B. mehrere Fragen zu stellen, die auf das Gleiche abziehlen) und nur  Ergebnisse von den Fragen zu berichten, die ins Bild passen)
  • «Wie wurden die Daten codiert?»
    (Codebuch, z.B. wenn Geschlecht mit Zahlen codiert wurde, steht dann 1 für männlich oder für weiblich?, auch wichtig: der Antwortbereich, geht eine Antwortskala z.B. von 1 bis 5 oder von 1 bis 7)

Hat man die Daten, stellt sich die Frage, wie man sie selbst auswertet. Der einfachste Weg ist eine/n Experten/in hinzuzuziehen. In vielen Fällen wird das der einzig ökonomische Weg sein.

Eigenständig in die Daten schauen

Falls man eigenständig in die Daten schauen will — diese Option gibt es auch. Das Problem ist, dass man hierfür zunächst einmal ein solides statistisches Wissen benötigt. Zwar gibt es Bücher und Kurse dazu, aber das ist sehr zeitintensiv und aufwändig. Aber zumindest für eine erste Visualisierung der Daten ist das nicht immer notwendig (Histogramme, Streudiagramme, etc.).

Damit stellt sich nur noch die Frage nach der richtigen Software. Grundsätzlich kann man viel mit Excel machen. In einigen Bereichen wird es primär eingesetzt. Grade für umfangreichere Visualisierungen und statistische Analysen kann ich aber R sehr empfehlen (https://www.r-project.org/).

Vorab — es ist sehr gewagt, in einem Blog, der sich vermehrt an Praktiker/innen wendet, eine hardcore Statistiksoftware zu empfehlen, die einiges an Einarbeitungszeit benötigt (Monate!). R richtig zu bedienen setzt einiges an Persistenz voraus. Dafür ist R im Gegensatz zu Software wie SPSS kostenlos, schneller, flexibler, und — wenn man die Einstiegshürde überwunden hat — extrem mächtig. Es legt auch einen anderen Umgang mit den Daten nahe. Statt sich einfach durch das Interface von Programmen wie SPSS durchzuklicken und oft direkt von erhobenen Daten (z.B. von Mitarbeiter/innen-Befragungen) auf aggregierte Werte und andere Statistiken (wie t-Tests, ANOVAs, etc.) zu gehen, legt es eher eine Interaktion mit den Daten nahe. Und man merkt oft erst bei dieser Interaktion, was die eigentlich interessanten Fragen sind.

Aus meiner Sicht ist die Benutzung von R recht gut nachvollziehbar, wenn man schon Grundkenntnisse in Statistik und Vorkenntnisse in Programmiersprachen hat. Falls nicht, dauert es entsprechend länger. Die Hauptstolperstellen bei R sind aus meiner Sicht vor allem:

  • Der Teufel steckt im Detail — da R letztendlich eine Programmiersprache ist, reicht ein kleiner Tippfehler und der Befehl funktioniert nicht, oder schlimmer, nicht so wie gedacht. Das ist ein Grund, warum ich beim Lernen mit R und bei jeder Auswertung von Daten mit Datenvisualisierung anfangen würde. Dann sieht man meist direkt, wenn etwas schief geht. Generell wie beim Programmieren vorgehen: geplant vorgehen, überprüfen, hinterfragen, schauen ob tatsächlich genau das gemacht wird, was man vermutet.
  • Man muss wissen, was man macht. Im Gegensatz zu anderer Software (z.B. SPSS) kann man sich nicht einfach blind durchklicken. Man braucht hier auch Wissen über Statistik.
  • Gerade zu Beginn wird man leicht frustriert, weil R nicht einsteigerfreundlich ist. Das ist später ein Vorteil, weil dann viele Sachen sehr schnell gehen. Aber gerade zu Beginn wird man viel fluchen.

Falls Sie sich R einmal anschauen möchten, ich kann die folgenden Quellen sehr empfehlen:

  • Burk & Anton’s Tadaa-Data (R für Psychos; https://r-intro.tadaa-data.de/book/): Eine eher informelle aber sehr fundierte Einführung in R die gerade im Enstehen ist.
  • Grolemund und Wickham’s «R for Data Science» (http://r4ds.had.co.nz/): Das Buch ist kostenlos auf der Website verfügbar. Es ist hervorragend geschrieben und beginnt mit der Visualisierung von Daten. Es arbeitet auch mit «tidyverse», was den Umgang mit den Daten etwas vereinfacht.
  • RStudio’s ggplot2-cheatsheet (https://www.rstudio.com/wp-content/uploads/2015/03/ggplot2-cheatsheet.pdf): ggplot2, ein Paket für R, erlaubt sehr schöne und hilfreiche Visualisierungen — es ist letztendlich eine Grammatik für Graphiken. Der Zweiseiter gibt eine schöne Übersicht, wenn es um Datenvisualisierungen geht.
  • STHDA ggplot2 (http://www.sthda.com/english/wiki/ggplot2-essentials): Website mit Fokus auf die unterschiedlichen Visualisierungen/Graphen.
  • Field, Miles, & Field (2012)’s «Discovering Statistics Using R»: Für den Hintergrund, u.a. wofür man Statistiken überhaupt berechnet.
  • RStudio (https://www.rstudio.com): Eine sehr schöne Umgebung um R zu verwenden. Mit Fenstern für die Syntax, die Console (welcher Code wird ausgeführt), die Daten, sowie die Visualisierungen, Hilfe, etc.
  • datacolada’s Blog Eintrag 69 (http://datacolada.org/69): Ein sehr guter Hinweis um Datenanalysen nachvollziehbar zu machen.

Wie schon gesagt, es mag etwas vermessen sein, Praktikern eine Software wie R nahe zu legen — die Verwendung von Statistiken mal ganz abgesehen (GIGO gilt auch hier). Aber wenn man den Datensatz hat und ein frei verfügbares Werkzeug wie R verwendet, dann hat man zumindest die Möglichkeit, sich das Fundament für die eigenen Entscheidungen etwas genauer anzusehen.

Oder sich zumindest von einer darin firmen Person einmal durch die Daten führen zu lassen.

Gute Entscheidungen sind datengestützt. Das heißt nicht, dass man Daten und den darauf basierenden Statistiken blind trauen sollte. Schließlich werden Daten immer auf eine bestimmte Weise gewonnen, mit Fragestellungen und anhand von Stichproben, welche die Daten stark beeinflussen.