wissens.dialoge

Fragen einer Evaluation

In meinem letzten Dialog („Ein gutes Fahrrad für den menschlichen Verstand bauen„) habe ich dafür argumentiert, bei der Entwicklung von Produkten psychologische Expertise zu verwenden. Denn wann immer ein Produkt den Menschen unterstützen soll, sollte das Produkt auch perfekt an den Menschen angepasst sein.

Das ist sofort einleuchtend wenn es um physische Unterstützung geht (z.B. ein Fahrrad, dass in Größe und Funktion dem/der Nutzer/in angepasst sein sollte, trivial also z.B. kein Dreirad für den Radrennsportler). Es ist etwas schwerer zu sehen wenn es um die Unterstützung von Denkprozessen geht (z.B. eine App, die beim Lernen aus persönlicher Erfahrung unterstützen soll). Wie ein Kollege einmal treffend meinte: Menschen kompensieren oft die Entwicklungsfehler von Produkten. Das stimmt zwar positiv bezüglich der Fertigkeiten der Menschen, zieht aber auch unnötig Ressourcen ab, die man für etwas besseres hätte brauchen können.

Die Psychologie bei der Entwicklung von Produkten mit einzubeziehen wirft allerdings einige Fragen auf — unter anderem: Wie kann man überprüfen, ob ein Produkt wirklich den gewünschten Effekt aufweist? Psychische Prozesse sind nicht direkt greif- oder beobachtbar.

Das ist eine Frage der Evaluation.

Evaluationen sind ein interessantes aber auch komplexes und leicht ausuferndes Thema. Und es ist ein wichtiges Thema, da hier oft Interessenskonflikte vorliegen: Wer möchte schon zugeben, dass Entwicklungszeit/-aufwand/-kosten versenkt wurden? Entsprechend ist es etwas, wovon man eine ungefähre Vorstellung haben sollte.

Da ich mich derzeit verstärkt mit Evaluationen im Kontext der Medieninformatik beschäftige, stelle ich hier ein paar Fragen vor, die ich bei der Planung und Bewertung von Evaluationen hilfreich finde.

Wofür soll die Evaluation verwendet werden?

Kurz: Warum machen Sie (oder andere) sich den Aufwand? Wer liest die Ergebnisse und welche Schlussfolgerungen oder Konsequenzen sollen daraus gezogen werden? Bewerten kann man vieles, aber eine Evaluation sollte gezielt bestimmte Fragen beantworten (z.B. Benutzerfreundlichkeit, Lerneffekte, etc.). Wichtig ist hier eine möglichst objektive Bewertung als Entscheidungshilfe (z.B. wo man nachbessern muss).

Was eine Evaluation grundsätzlich nicht sein sollte ist eine kreative Daten(er)findung um vorherige Annahmen, Hoffnungen oder Befürchtungen zu „beweisen“. Das ist „advocacy research„, die nicht nur unethisch ist, sondern mit der man sich ins eigene Bein schießt. Die Zeiten, in denen man mit manipulierten Untersuchungen durchgekommen ist, nähern sich (glücklicherweise) immer mehr dem Ende. Es gibt heute einfach zu viele Personen mit dem notwendigen methodischem Wissen um schlechte Studien/Evaluationen auseinander zu nehmen. Und niemand wird gerne belogen.

Was ist an Vorinformationen oder ähnlichen Evaluationen vorhanden?

Sehr hilfreich um gute Fragen/Erhebungsmethoden für die Evaluation zu finden (best practices), aber auch um Evaluationen bewerten zu können. Einzelne Studien können schon einmal … wilde Ergebnisse liefern, die schwer zu interpretieren sind. Im Gesamtkontext kann man die Ergebnisse einer Studie/Evaluation dagegen besser einordnen.

Ein wichtiger Punkt hier ist die theoretische Fundierung des Produktes. Warum sollte es die gewünschten Effekte aufweisen? Auf welchen (psychologischen oder pädagogischen) Theorien basiert sie?

Wer ist die Zielgruppe — und ist diese zugänglich?

Die Evaluation sollte grundsätzlich an der selben Gruppe durchgeführt werden, die das Produkt auch später verwenden soll. Das ist nicht immer einfach — zum Teil sind die Zielgruppen nur schwer (oder nur mit erheblichen formalen Aufwand) zu erreichen. Kein Wunder, dass viele psychologischen Studien mit Studierenden durchgeführt werden — die sind vor Ort und einfach zu erreichen. Und sofern es um allgemeine (oder allgemeinpsychologische) Effekte geht, kann man das noch rechtfertigen. Bei einer Evaluation eines spezifischen Produktes ist das allerdings nicht mehr möglich.

Was soll und kann gezeigt werden?

Grundlegend muss eine Evaluation — eine Bewertung — nach bestimmten Kriterien erfolgen. Anhand dieser kann man bestimmen ob das Ziel erreicht, verfehlt oder übertroffen wurde. Diese Kriterien sind aber nicht gottgegeben. Sie werden festgelegt und konkret von abstrakten Zielen (z.B. Lernen unterstützen) auf konkret beobachtbare Verhaltensweisen heruntergebrochen (z.B. in einem Test einen statistisch bedeutsamen Wissenszuwachs aufweisen).

Hierbei macht es Sinn nicht nur auf Produktvariablen zu schauen (z.B. Punkte im Test), sondern auch auf Prozessvariablen (z.B. Veränderungen im Verhalten während des Lernens).

Was meiner Ansicht nach eher irrelevant ist, sind Fragen wie „Hat es ihnen gefallen?“. „Gefallen“ oder „hatten Spaß dabei“ ist eher ein Hygienefaktor. Es sollte vorliegen, macht aber selbst noch nicht viel. Produkte haben meist konkrete Ziele — es werden Ressourcen eingesetzt (Zeit, Energie, Geld) um etwas zu erreichen. Ein „Sie fanden es toll.“ erreicht noch kein Ziel. Oft sollten gute Produkte auch in den Hintergrund treten und nicht mit der Zielerreichung konkurrieren. Anders gesagt, man muss einen Hammer nicht mögen — er muss gut in der Hand liegen, um damit einen Nagel in die Wand zu schlagen.

Wie können die Effekte möglichst objektiv gezeigt werden?

Die Effekte müssen konkret und objektiv — das heißt unabhängig von der Person, welche die Bewertung durchführt — messbar sein. Hier sollte man den handfesten Interessenskonflikt nicht unterschätzen. Wenn man viele Wochen, Monate oder Jahre in eine Produktentwicklung gesteckt hat, dann will man natürlich auch, dass das Produkt positiv evaluiert wird. Und es gibt viele subtile Wege, wie die Hoffnung diese Effekte auch produzieren kann („Versuchsleitereffekt„). Das wäre eigentlich kein Problem, aber beim späteren praktischen Einsatz bleiben die Effekte dann ohne die unsichtbare (und oft unbewusste) Hand der Entwickler aus.

Wichtig ist hier eine klar definierte, objektive Durchführung mit einer (möglichst) objektiven Messung/Beobachtung. Erwartete Effekte (z.B. Lerngewinne) oder Nutzungsverhalten (z.B. Lernzeit) müssen vorher spezifiziert werden. Die Kriterien dürfen nicht nach der Messung verändert werden („Eigentlich sind 90 Sekunden auf unserer Website ja doch ziemlich lang …“).

Gerade wenn es um digitale Medien geht bieten sich Logfiles als Datenquelle an, ergänzt z.B. durch Fragebögen oder Verhaltensbeobachtungen. Da die Messung/Beobachtung selbst das Verhalten beeinflusst („Hawthorne-Effekt„) sind gerade längerfristige Nutzungen mit Logfiles sehr zu empfehlen.

Bei allen Beobachtungen und Expertenbewertungen — die Urteile dürfen nicht von Personen mit Interessenskonflikt durchgeführt werden. Sie sollten von mehreren Personen unabhängig voneinander durchgeführt werden. Über die Beobachterübereinstimmung erhält man zumindest etwas Informationen über die Qualität der Urteile.

Gibt es gutes Material oder gute Szenarien für die Evaluation?

Ein oft vernachlässigter Punkt ist die konkrete Aufgabe oder das Material, mit denen die Personen bei der Evaluation arbeiten. Es muss für die Zielgruppe passend sein (Sinn machen) und die Aufgabe darf weder zu leicht noch zu schwer sein.

Was ist mit kurz- und langfristigen Effekten?

Ein Hauptproblem gerade bei Evaluationen von innovativen Produkten ist der Neuheitseffekt. Für die Teilnehmer/innen ist das Produkt neu und oft „cool“. Das mag optimistisch für den späteren Erfolg stimmen, stört aber die Evaluation. Zumindest wenn das Produkt auch eingesetzt werden soll, wenn der „Wow-Effekt“ vorbei ist. Andernfalls endet ihr Produkt wie der Hund zu Weihnachten.

Eine längerfristige Beobachtung der Nutzung kann hier hilfreich sein. Sie hat auch einen weiteren positiven Effekt. In einigen Fällen kann es zunächst zu einer Verschlechterung der Leistung oder des Wohlbefindens kommen — insbesondere dann, wenn bestehende Handlungsmuster aufgebrochen werden und die bisherige Automatisierung nicht mehr greift. Bewusst anders ausgeführt können Handlungen zunächst länger dauern. Später können sich die Handlungen dann aber auf einem höheren Niveau einpendeln. Kurzfristige Messungen können diese Entwicklung nicht abbilden.

Wie können die Ergebnisse zur Vergleichbarkeit verortet werden?

Zwar liefern quantitative Daten wunderschöne Diagramme und Ergebnisse („Einfachheit der Bedienung lag bei 7,34 auf einer Skala von 1 bis 10“), das allein sagt allerdings noch nicht viel aus. Die Frage ist hier, wo vergleichbare Produkte liegen und ob der Unterschied bedeutsam ist.

Was ist mit den Sachen, die nicht erreicht werden sollten?

Häufig tendiert man dazu nur die gewünschten Effekte im Blick zu haben. Aber ein Produkt kann vielfältige Effekte haben. Sie werden (vermutlich) kein digitales DDT entwickelt haben, aber es lohnt sich kritisch nach negativen Effekten Ausschau zu halten. Auch wenn es das Letzte ist, wonach man suchen will, es ist das schlauste Vorgehen. Wenn man selbst die Effekte nicht findet, werden es andere machen. Und damit gerät man in die Defensive und verspielt die Zeit, diese negativen Effekte bewusst anzugehen und auszuschalten (oder zumindest zu minimieren).

Was ist mit rechtlichen und ethischen Aspekten?

Je nach Zielgruppe sind unterschiedliche rechtliche und ethische Aspekte relevant. Zwar wird man vermutlich keine medizinischen Studien durchführen, bei denen sich die Versuchsteilnehmer einer Gefährdung ihrer Gesundheit oder ihres Lebens aussetzen, aber Evaluationen können negative Effekte haben. Teilnehmer/innen sollten im Vorfeld soweit wie möglich aufgeklärt werden (allerdings nicht über das, was an Effekten erwartet wird, sonst „spielen“ viele Teilnehmer/innen einem diese Effekte vor, vgl. „demand characteristics„). Auch diesen Effekt würden Sie beim späteren Einsatz nicht mehr finden.

Neben rechtlichen Vorgaben und anderen ethischen Aspekten ist der Wille der Teilnehmer/innen ausschlaggebend (schriftlich Dokumentieren). Diese dürfen jederzeit ohne negative Konsequenzen abbrechen. Bei Kindern und Jugendlichen ist wichtig, dass diese zwar nicht alleine der Teilnahme zustimmen dürfen, aber sie können alleine die Teilnahme verweigern. Bei einem „Nein“ gilt hier der Wille des Kindes/Jugendlichen, egal ob die/der Erziehungsberechtigte „Ja“ sagt.

Sofern man die Evaluation selbst durchführt: Die Auswertung vorher durchspielen.

Ein schöner Effekt bei der Planung von Evaluationen ist, dass man leicht den Wald vor lauter Bäumen nicht mehr sieht und sich gut darin verlaufen kann. Nach diversen Diskussionen kann das eigentliche Ziel — die eigentlichen Fragen — leicht aus dem Blick geraten. Entsprechend sollte man sich das eigentliche Ziel, die Fragen, die Bewertungen die vorgenommen werden sollen, immer wieder vor Augen halten. Und wenn die Planung soweit steht sollte man die Auswertung einmal komplett durchspielen. Kann man die Fragen mit den Daten wirklich beantworten?

Schließlich ist eine gute (oder ausreichende) Evaluation zu viel Aufwand um am Ende festzustellen, dass man andere Fragen beantwortet hat. Oder dass einem zur Beantwortung der ursprünglichen Frage wichtige Informationen fehlen. Insbesondere wenn man diese einfach hätte erheben können — wenn man es nur vorher gesehen hätte.

Und das „vorher gesehen hätte“ bezieht sich auch auf den Zeitpunkt der Evaluation selbst. Man sollte mit Evaluationen nicht zu lange warten sondern lieber früh und häufig evaluieren (eher formativ als summativ). Huxley’s „The great tragedy of Science – the slaying of a beautiful hypothesis by an ugly fact.“ lässt sich auch auf Evaluationen übertragen: „The avoidable tragedy of Engineering — the breaking of a beautiful artefact on a neglected reality.

In dem Sinne, viel Spaß beim Bewerten, oder beim Bewerten von Bewertungen.

Bild: Jean-Léon Gérôme [Public domain], via Wikimedia Commons