Expertenevaluation im mobilen Zeitalter

Expertenevaluation ist so hipp wie Birkenstock-Sandalen. Dabei kann sie gerade in der heutigen mobilen Welt mehr als ihr Ruf: Expertenevaluation ist kostengünstig, wirkungsvoll und gut darin, im mobilen Kontext Usability Probleme aufzuspüren, die mit anderen Methoden schwer zu fassen sind. Das macht sie zur idealen Ergänzung bei der Usability-Evaluierung von mobilem Web und App. Dazu müssen allerdings einige Rahmenbedingungen erfüllt sein. Unsere Tipps aus der Praxis helfen dabei, dass es läuft – auch ohne Sandalen.

Usability ohne User?

Unter dem Begriff „Expertenevaluation“ (englisch: „expert review“) versteht man eine Reihe von Inspektionsmethoden, die eine Bewertung der Usability eines Produktes rein auf Basis einer Expertenanalyse durchführen. Der erste Ansatz dazu wurde von Jakob Nielsen und Rolf Molich 1990 mit der Heuristischen Evaluierung entwickelt. Später folgten dann eine ganze Reihe weiterer Vorgehensweisen.

Aber Usability ohne User – geht das überhaupt? Die kurze Antwort ist: Ja, überraschend gut. Laut Rolf Molichs CUE-Studien (CUE steht für Comparative Usability Evaluation) können Expertenevaluationen ähnlich effizient sein wie Usability Tests – bei häufig deutlich geringeren Kosten. Die lange Antwort auf die Frage ist allerdings wie so oft: Es gibt einiges zu beachten.

Darum funktioniert’s

Auf den Punkt gebracht gibt es einen wesentlichen Grund, warum Expertenevaluationen funktionieren: Den Experten. Zu seinen Kompetenzen sollten exzessive praktische Erfahrung mit Nutzern (Benutzungstests, Nutzerinterviews und anderer User Research) sowie solide Kenntnisse von Design Patterns, Richtlinien und aktuellen Usability-Studien gehören. Nur dann kann er auf der Basis seiner Kenntnisse über Ergonomie, Wahrnehmungsverhalten, Nutzerbedürfnisse, mentale Modellen, usw. Urteile fällen, die der Verifikation durch empirische Methoden standhalten können.

In der Praxis heißt das auch: Bei der Expertenanalyse wird nicht nur beurteilt, ob ein Button die richtige Größe, Position und Farbe hat, sondern ob der Button in diesem Dialogschritt für den Nutzer überhaupt Sinn macht. Eine gute Expertenevaluation ist also weit mehr als eine Analyse von Designdetails. Sie bewertet ganzheitlich das Produkt im Bezug auf bestimmte Nutzer, die bestimmte Aufgaben erfüllen wollen – ganz im Sinne der Definition von Usability nach ISO 9241-11.

Der „Experte“ in der Expertenevaluation kann also nicht jeder interessierte Kollege sein, der anhand eines Kriterienkatalogs und/oder Vorgehensmodells das Produkt beurteilt.

Tadaa! Mobile Revolution

Schön, Expertenevaluation ist also günstig und kann sehr effizient sein. – Aber inwiefern macht sie zusätzlich zu meinen sonstigen Testmaßnahmen Sinn?

Auftritt Mobile Revolution: Mit dem Aufkommen von Smartphones und Tablets sind die Ansprüche an das gebrauchstaugliche Design von Software enorm gestiegen. Gleichzeitig haben sich Design und Bedienung der Geräte immer weiter differenziert. Webauftritte (und in geringerem Maße auch Apps) müssen heute eine Vielzahl unterschiedlicher Formfaktoren und Bedienungskonzepte (Maus, Touch, etc.) unterstützen.

Design-Review damals und heute

Maßnahmen wie Benutzungstests und Analytics können in dieser Situation nicht mehr allein in wirtschaftlicher Weise sicherstellen, dass auf allen (maßgeblichen) Geräten eine gute Gebrauchstauglichkeit gegeben ist. Dazu zwei schon etwas ältere aber sehr plakative Beispiele dazu, was in der Praxis schief gehen kann:

iPad resolution problem

Die von OBI für seinen responsiven Auftritt gestalteten Flyout-Menüs sind schon auf den größeren iPads (9,7 Zoll Displaydiagonale) nur mit sehr spitzen Fingern fehlerfrei zu bedienen. Auf dem iPad Mini ist es jedoch bei einer Linkhöhe von 3mm ohne jeglichen Abstand zu den benachbarten Navigationspunkten ein Glücksspiel, den gewünschten Eintrag zu treffen.

No vertical responsiveness

Die Produktseite von Sheego macht auf dem iPad in Landscape-Orientierung eine perfekte Figur: Der gesamte Kernbereich (im wesentlichen Produktbild, Variantenauswahl, Preis und Bestell-Button) passt gleichzeitig auf das Display. Das Produktbild ist in gefälliger Größe vollständig sichtbar. Ganz anders auf einem Google Nexus 7: Weder hochkant noch quer gehalten sind alle wesentlichen Inhalte im Blick, stattdessen gibt es viel Weißraum zu sehen.

Die beiden Beispiele sind absichtlich extrem gewählt. Die dargestellten Probleme sollten unmittelbar eindrücklich sind. Bei Expertenevaluationen können aber auch deutlich subtilere Probleme identifiziert werden.

Qualitätssicherung der Usability – Team oder Experte?

Generell stellt sich die Frage, wie die Qualitätssicherung von Designänderungen in einer Welt fragmentierter Geräteklassen aussieht: Wie stellt ein Team sicher, dass seine App oder sein Webangebot auf allen relevanten Devices eine ausreichende Usability aufweist? Ist es wirtschaftlich sinnvoll oder auch nur möglich, bei jeder Änderung alle Device-Varianten mit Benutzungstests zu evaluieren? Oder wird ein Teil davon durch die sonstigen Qualitätssicherungsmaßnahmen mit abgedeckt?

Zumindest bei der traditionellen Verteilung von Rollen und Zuständigkeiten ergibt sich hinsichtlich der Evaluierung der Usability auf verschiedenen Geräten ein blinder Fleck:

Rolle	Testgeräte	Fokus
Designer	wenige	Konzept
UX Manager	wenige	Benutzungstests
Developer	größere Anzahl	Implementierung
QS Tester	größte Anzahl	Funktionalität
Content Manager	wenige bis keine	Inhalte

„Bei uns testet das ganze Team.“ ist eine Haltung, die man oft als Reaktion auf die Frage nach dem Vorgehen beim Test auf verschiedenen Endgeräten hört. Das aber ist gerade keine Expertenevaluation. Designer, Entwickler, Tester, Produktmanager usw. haben normalerweise nicht den Wissens- und Erfahrungshintergrund, um wirkungsvoll Expertenevaluationen durchzuführen. Sie fokussieren ihre Bewertung meist auf Aspekte wie die korrekte Funktion und die Einhaltung des Styleguides.

Aus meiner Erfahrung braucht es Experten, die regelmäßig und systematisch eine Usability-Bewertung durchführen. Nichts spricht generell dagegen, dass diese Rolle Designer, Tester oder Entwickler übernehmen. Sie sollten sich aber darüber im Klaren sein, dass es dazu nicht ausreicht, den Styleguide und einen Katalog mit Prüfkriterien zu kennen. Häufige Besuche im Uselab, Usability Expertise und gute Kenntnisse des Forschungsstandes (haus-intern und öffentlich) sind wichtig für eine gute Qualität der Evaluierung.

Unter Umständen kann es sinnvoll sein, eine eigene Rolle im Team zu schaffen. Wie wäre es mit dem „Usability Inspektor“?

Usability-Inspector

So klappt’s – Pro Tipps

Nutzermodelle als Basis der Evaluation

Wie bereits erwähnt sind gute Kenntnisse über die Bedürfnisse und mentalen Modelle der Nutzer wichtige Voraussetzungen für eine wirksame Evaluation. Daher ist es sinnvoll, bestehende Konzepte der Nutzung (Personas, Szenarios, User Needs, etc.) für die Evaluation heranzuziehen oder eigene als Basis der Evaluation zu erstellen. Für eine Studie über mobile Reiseportale haben wir bei Anstrengungslos z. B. zunächst auf der Basis von Benutzungstests und Interviews ein Phasenmodell für die Online-Buchung von Pauschalreisen erstellt. Hier beispielhaft ein kleiner Ausschnitt daraus:

user-model-pauschalreise

Das Modell half uns trotz der teilweise sehr unterschiedlichen Herangehensweisen der einzelnen Reiseportale, die eigentlichen Nutzerbedürfnisse und -erwartungen nicht aus den Augen zu verlieren.

Die größere Effizienz von nutzer- und aufgabenspezifischen Analysen ist sicherlich auch der Grund, warum heute bevorzugt andere Methoden als die sehr generische heuristische Evaluation eingesetzt werden. Aus unserer Erfahrung würden wir zu einem persona- oder szenario-basierten Ansatz raten.

Plattform- und produktunabhängige Definition von Prüfkriterien

Zusätzlich zu einer Szenariobeschreibung und ggf. einer oder mehrerer Personas basiert die Expertenevaluation typischererweise auf einem Kriterienkatalog. Die einzelnen Prüfkriterien können Themen wie Touch-Ergonomie, Navigationsdesign, Gestaltung des Seitenrahmens etc. umfassen.

Beispiel für ein Prüfkriterium zur Gestaltung der Startseite von Online Shops:

Testscope	Bewertungsaspekte	Hinweise zum Testvorgehen
Startseite des mobilen Auftritts auf allen Testgeräten	Absender und Zweck unmittelbar erkennbar: Startseite eines Online Shops – hier kann ich kaufen Absendermarke – wessen Portal ist das? Alle zentralen Elemente sind ohne Scrollen sichtbar und gut erfassbar: Logo Menü (falls vorhanden) Einstieg in Angebotskategorien Suche auf der Startseite unvermittelt nutzbar Einstieg in Service und Login Die Seite ist insgesamt übersichtlich und gut erfassbar: klare visuelle Hierarchie kein kognitiver Overload Wenn weitere Inhalte folgen: Die ohne Scrollen sichtbaren Inhalte suggerieren nicht, dass die Seite hier abschließt. Gibt es einen Einstieg in Inspiration und Themenwelten (z. B. durch eine Bühne) mit emotionalisierenden Angeboten, die zum Stöbern einladen? Bei Fehlen nur abwerten, wenn auf zugehöriger Desktop-Startseite vorhanden.	Begutachtung der Startseite auf allen Testgeräte (insbesondere mit kleineren Displaygrößen): Aufruf der Desktop-Startseite per Direkteingabe Beurteilung der initalen Ansicht ohne Scrollen, dann der ganzen Seite Subjektive Beurteilung der Übersichtlichkeit der Startseite auf mehreren Endgeräten: Ist die Seite leicht scannbar? Gibt es zu viele oder zu aufmerksamkeitsstarke werbliche oder andere prominente Elemente, die das schnelle Erfassen der wesentlichen Konzepte der Site behindern?

Testscope

Bewertungsaspekte

Hinweise zum Testvorgehen

Startseite des mobilen Auftritts auf allen Testgeräten

Absender und Zweck unmittelbar erkennbar:

Startseite eines Online Shops – hier kann ich kaufen
Absendermarke – wessen Portal ist das?

Alle zentralen Elemente sind ohne Scrollen sichtbar und gut erfassbar:

Logo
Menü (falls vorhanden)
Einstieg in Angebotskategorien
Suche auf der Startseite unvermittelt nutzbar
Einstieg in Service und Login

Die Seite ist insgesamt übersichtlich und gut erfassbar:

klare visuelle Hierarchie
kein kognitiver Overload

Wenn weitere Inhalte folgen: Die ohne Scrollen sichtbaren Inhalte suggerieren nicht, dass die Seite hier abschließt.

Gibt es einen Einstieg in Inspiration und Themenwelten (z. B. durch eine Bühne) mit emotionalisierenden Angeboten, die zum Stöbern einladen? Bei Fehlen nur abwerten, wenn auf zugehöriger Desktop-Startseite vorhanden.

Begutachtung der Startseite auf allen Testgeräte (insbesondere mit kleineren Displaygrößen):

Aufruf der Desktop-Startseite per Direkteingabe
Beurteilung der initalen Ansicht ohne Scrollen, dann der ganzen Seite
Subjektive Beurteilung der Übersichtlichkeit der Startseite auf mehreren Endgeräten: Ist die Seite leicht scannbar? Gibt es zu viele oder zu aufmerksamkeitsstarke werbliche oder andere prominente Elemente, die das schnelle Erfassen der wesentlichen Konzepte der Site behindern?

Idealerweise sollten die Prüfkriterien nicht auf einen bestimmten Designansatz abgestimmt sein, sondern in Ihrer Formulierung die Evaluierung beliebiger gleichgearteter Produkte zulassen. Warum? Weil so zum einen die Bewertung der Usability unabhängig von der aktuellen Lösung geschehen kann, was auch bei größeren Designänderungen eine Betrachtung der zeitlichen Entwicklung frei von Brüchen ermöglicht. Und weil zum anderen auf diese Weise ein Benchmarking von Konkurrenzprodukten erleichtert wird, da die Prüfung mit identischem Kriterienkatalog erfolgen kann.

Eine einfache Metrik für den Vergleich zweier Evaluationen kann das Ausmaß der Kriterienabdeckung sein. Dabei können Kriterien z. B. auch teilweise erfüllt sein. Bei noch elaborierteren Modellen sind einzelne Kriterien oder ganze Cluster zusätzlich noch unterschiedlich gewichtet.

Vier-Augen-Prinzip und Konsensbildung

Um den Einfluss individueller Wahrnehmungen und Urteile zu vermindern, ist es hilfreich, die Evaluation durch mehr als einen Experten durchführen zu lassen. Wichtig ist dabei – wie Rolf Molich in seinen Studien herausfand – das Vorgehen bei der Konsensbildung: Jeder der Experten sollte das Produkt oder einen Aspekt des Produktes zunächst unabhängig untersuchen und eine Beurteilung erstellen. Erst im zweiten Schritt sollten in gemeinsamer Diskussion die Ergebnisse zu einem Urteil zusammengeführt werden. Dabei können die dabei aufkommenden Diskussionen genauso wertvoll wie die Ergebnisse selbst sein – vorausgesetzt es besteht eine offene und tolerante Diskussionskultur zwischen den Experten.

Das Testlabor

Für die Expertenevaluation sollte ein angepasster Gerätepark zusammengestellt werden, der die für die Usability relevantesten Aspekte abdeckt. Bei ausschließlich mobilen Devices sehen wir die folgenden Aspekte als vorrangig an:

die Displaygröße (z. B. 4 Zoll) – bestimmt den darstellbaren Kontext
das Seitenverhältnis (z. B. 16:9) – Anpassung des Layouts für Breitbildformate (siehe Sheego-Beispiel)
die Pixeldichte (z. B. 326 ppi) – Schärfe und Detailgrad der Darstellung
die Plattform (z. B. Apple iOS / Safari) – beeinflusst Erwartungen und mentales Modell des Nutzers
die aktuelle Bandbreite (z. B. UMTS) – wichtig für eine Evaluation des Antwortverhaltens

Bei der Auswahl kann man sich an den Geräten mit den größten Restriktionen orientieren: Statt iPad Air und iPad Mini reicht z. B. nur das iPad Mini, da außer Displaygröße und Pixeldichte alle sonstigen wichtigen Parameter identisch sind.

So machen wir es

Für unsere Studien testen wir bei Anstrengungslos folgendermaßen: Zwei Experten bewerten auf jeweils zwei Geräten parallel (gleichzeitig können also vier Geräte getestet werden). Neben einem Kriterienkatalog definieren wir ein Testszenario und kreieren aufgrund unseres User Research ein oder mehrere Nutzermodelle. Pro Evaluierungsschritt findet zunächst eine individuelle Bewertung statt, aus der anschließend in der Diskussion ein Konsensurteil gebildet wird. Das Testresultat sowie alle damit verbundenen Beobachtungen werden detailliert in Form von Text und Screenshots dokumentiert. Zusätzlich dazu wird die gesamte User Journey des Testszenarios als Abfolge von ganzseitigen Screenshots festgehalten. Der Kriterienkatalog ist in einzelne Themen geclustert, für die per Excel-Sheet automatisch Abdeckungsgrade errechnet werden, so dass auch das (häufig zahlenorientierte) Management auf seine Kosten kommen kann.

Ein Pfeil mehr im Köcher

Hohe Agilität in der Produktentwicklung bei gleichzeitig schwer überschaubarer Vielfalt auf den Zielplattformen machen die Expertenevaluation mehr denn je zu einem wertvollen Instrument beim Usability Testing. Das kann empirische Methoden zwar nicht ersetzen, wohl aber sinnvoll ergänzen. Richtig eingesetzt, liefert die Expertenevaluation nicht nur frühzeitig Hinweise auf potentielle Probleme, sondern hilft auch bei der Analyse der Konkurrenz – und das zu vergleichsweise günstigen Kosten.

Ein Kommentar

Romina 17. August 2015 um 11:42

Ähnlich wie die Expertenevaluation kommen auch die Birkenstocks nie so wirklich aus der Mode ;-)
http://www.vogue.de/mode/star-style/schuhe-stars-tragen-birkenstock

Danke für den informativen Artikel!!!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Name *

E-Mail *

Website

Kommentar *

Mit Absenden des Kommentars stimmst Du der Speicherung deiner persönlichen Daten (Name, eMail-Adresse, Webseite und Nachricht) durch uns bis auf Widerruf zu. Zur Vermeidung von Spam und zur rechtlichen Absicherung wird deine IP für 2 Monate gespeichert. Ebenfalls zur Vermeidung von Spam werden diese Daten einmalig an Server der Firma Automattic inc. geschickt. Zur Darstellung eines Nutzerbildes wird die eMail-Adresse im pseudonymisierter Form an Automattic inc. übermittelt. Wenn du einen oder beide Haken für die eMail-Benachrichtigungen setzt, wird deine eMail-Adresse bei Automattic inc. gespeichert. (Datenschutzerklärung)

Benachrichtige mich über nachfolgende Kommentare via E-Mail.

Benachrichtige mich über neue Beiträge via E-Mail.