Wie können Sprachschnittstellen im E-Commerce künftig genutzt werden, um die Nutzer bei der Verwendung von digitalen Produkten zu unterstützen? Und wie wichtig sind visuelle Elemente zur Unterstützung von Sprachschnittstellen für eine gute UX? In meiner Bachelor-Thesis an der Hochschule der Medien in Stuttgart habe ich genau das untersucht. Dafür habe ich zwei sprachbasierte Prototypen mit unterschiedlichen Schwerpunkten (Visualisierung und Sprache) entwickelt und remote durch die Zielgruppe getestet. In diesem Beitrag teile ich meine Ergebnisse mit euch.
Sprachschnittstellen, die sich unter anderem in Smartphones oder in Sprachassistenten befinden, erfahren zunehmend an Bedeutung und verändern den Alltag ihrer Benutzer. Auch im E-Commerce ist der Trend natürlich angekommen und hat das Potential das Online-Shopping Erlebnis zu revolutionieren. Voice Commerce ermöglicht die Erschaffung neuartiger Benutzererlebnisse, die den Kunden auf eine sehr emotionale Art ansprechen. Trotz alledem zeigen Sprachschnittstellen nach wie vor erheblicher Probleme u.a. beim Sprachverstehen und durch ständige Wort-Wiederholungen des Benutzers. Speziell im Voice Commerce besteht zusätzlich die Problematik, dass der Nutzer die Produkte nicht sehen kann, die er anfragt. Dieses Situation führt nachweislich zu einer kognitiven Leistungsbeeinträchtigung, weil das visuelle Scannen von Produkten hier einfach schneller ist. Macht die Sprachschnittstelle die UX denn jetzt besser oder nicht? Und wie genau kombiniert man im UX Design Spracheingabe und Visualisierungen am Besten? Genau diesen Fragestellung bin ich in meiner Thesis auf den Grund gegangen.
Als Grundlage habe ich ein Konzept für eine Mobile Shopping App namens “SmartBlue” entwickelt. “SmartBlue” ist eine Shopping App für Smartphones, die dem Kunden per Spracheingabe den Kauf ermöglicht. Um die Wirkung von visuellen Elementen im Vergleich zur Spracheingabe zu untersuchen, wurden zwei Prototypen mit unterschiedlichen Ausprägungen erstellt.
Die beiden Prototypen im Vergleich
Dabei setzt ein Prototyp den Fokus auf die Sprache und enthält einen geringen Anteil an visualisierten Elementen, der zweite Prototyp setzt den Fokus auf die Visualisierung und einen geringeren Anteil an auditiven Elementen. Eine besondere Herausforderung beim Online-Shopping ist das Vorhandensein guter Filtermöglichkeiten, damit der Nutzer seine Produkte schnell findet. Beide Prototypen wurden im Test miteinander verglichen, in dem insbesondere die Filtermöglichkeiten einen deutlichen Unterschied zueinander aufweisen. Bei dem Prototyp mit dem Fokus Spracheingabe werden die Filter-Optionen ausschließlich auditiv wahrgenommen und dann verbal festgelegt, wohingegen beim Prototyp Visualisierung die Filtermöglichkeiten vom Display ablesbar sind.
Für die Entwicklung beider Prototypen kam das Prototyping-Tool Adobe Xd zum Einsatz. Weil es die Möglichkeit bietet, herkömmliche Mockups zu erstellen und diesen anschließend, kurze Texte für die Spracheingabe und -ausgabe hinzuzufügen.
Der Aufbau des Remote UX Tests
Im Vorfeld des Remote Usability Tests sollten die sieben Probanden ihr Geschlecht, ihr Alter, sowie ihre Erfahrung im Voice Commerce angeben. Erfahrungen im Voice Commerce hatte bisher nur einer der Probanden, interessanterweise der Älteste.
Die Durchführung des Tests fand mit dem browser-basierten Video-Chat Whereby statt, indem der Bildschirm der Prototypen geteilt wurde. Dazu erhielten die Probanden vorab einen Link, mit dem sie sich anmelden konnten. Im Rahmen des Szenarios „Smartphone-Kauf“ lösten die Probanden mit Hilfe beider Prototypen vier identische Aufgaben. Währenddessen wurden sie über die Videofunktion beobachtet, um die Mimik zu erfassen. Die anschließende Erhebung mit fünf Fragen diente zum Gesamteindruck der Prototypen:
- “Wie empfindest du die Kombination aus Sprache und Visualisierung?”
- “Wie war für dich der Einkauf per Sprache?”
- “Wie war die Länge des Dialogs?”
- “Wie empfindest du die Menge der dargestellten Informationen auf dem Display?”
- “Welcher der getesteten Prototypen bereitet dir mehr Freude?”
Bis auf kaum störende Tonprobleme, verlief die Testphase reibungslos. Auch die Probanden waren mit dieser Form der Testdurchführung zufrieden und signalisierten keine Verständnisschwierigkeiten. Dennoch hatte ich den Eindruck, dass ich durch eine persönliche Betreuung noch besser auf die Personen hätte eingehen können.
Um messbare Daten zu erhalten setzte ich zusätzlich den Online-Fragebogen AttrakDiff als quantitative Methode ein. Dieser misst sowohl die pragmatische als auch die hedonische sowie die globale Attraktivität der Prototypen. Im AttrakDiff stehen 28 siebenstufige Items gegenüber, deren Endpunkte durch gegenseitige Adjektive (hässlich vs. schön) benannt sind. Die Probanden müssen sich nun spontan entscheiden, welcher Wert für sie am ehesten zum zu bewertenden Prototyp passt. Anschließend werden die Angaben vom System automatisch ausgewertet und in einer Grafik für die Analyse visualisiert dargestellt.
Die Ergebnisse
Der Prototyp mit dem Schwerpunkt Visualisierung hat in der Bewertung durch die Probanden deutlich bessere Werte erzielt, als der Prototyp mit dem Fokus auf die Sprache. Das konnte vor allem auf die Tatsache zurückgeführt werden, dass eine Mehrzahl von Informationen visualisiert dargestellt wurden. Besonders die Ansicht des Filters (Schwerpunkt Sprache) bereitete den Probanden Schwierigkeiten. Dort wurden die Informationen zwar Schritt für Schritt aber ausschließlich auditiv und ohne visualisierte Unterstützung dem Benutzer dargestellt, die er anschließend verbal wiedergeben sollte. Diese Bewertung spiegelte sich auch in der kognitiven Belastung der Probanden wider, die beim Prototyp Sprache höher war, als beim Prototyp Visualisierung.
Sechs von sieben Probanden empfanden mehr Freude beim Prototyp mit dem Fokus auf die Visualisierung. Werden die Ergebnisse aus dem AttrakDiff zur Bewertung herangezogen zeigt sich auch hier eine positivere Bewertung vom Prototyp – Visualisierung (Orange) gegenüber dem der Sprache (Blau). Im Diagramm der Mittelwerte bewegt sich der Prototyp mit dem Fokus Visualisierung im überdurchschnittlichen Bereich, wohingegen der Prototyp mit der Sprache im durchschnittlichen Bereich anzusiedeln ist. Trotz der differenzierten Bewertung werden beide Prototypen als sympathisch und motivierend wahrgenommen und weisen in der Gesamtbetrachtung eine hohe globale Attraktivität auf.
Ein Proband, der durchaus schon große Erfahrung aber tendenziell einen negativen Eindruck im Bereich Sprachschnittstellen im Onlinehandel vorzuweisen hat, merkte bei der Bewertung beider Prototypen folgendes an:
„Beide waren schon sehr gut“.
Ein weiterer Proband lobte die persönliche Ansprache durch die Sprachschnittstelle, weil auf diese Weise Verbundenheit geschaffen werden konnte.
„Die persönliche Ansprache fand ich sehr positiv. Das ist auch im normalen Leben so, wenn du mit dem Vornamen angesprochen wirst, dann hält er was von dir.“
Positiv bewertet wurde die Darstellung der einzelnen visualisierten Elemente in der Unteransicht Filter (Prototyp Visualisierung) sowie die Sprachausgabe.
„Das fand ich jetzt gut. Weil du alles schön ablesen kannst. Man sieht auch alles sehr gut. Es hat eine gute Struktur. So finde ich es besser als bei dem Vorherigen. Die Sprachausgabe habe ich gut verstanden.“
Mit den Prototypen wurde gezeigt, dass eine ausgewogene Verknüpfung aus verbalen Eingabemodalitäten und visuellen Ausgabemodalitäten die kognitive Belastung des Benutzers während der Interaktion mit dem interaktiven System minimieren kann, weil unterschiedliche Typen des Arbeitsgedächtnisses parallel verwendet werden. Zusätzlich helfen die mentalen Muster, die die Benutzer bereits durch die Nutzung von anderen Applikationen entwickelt haben, bei der Nutzung der Schnittstellen, wie beispielsweise das Erkennen und Interpretieren verschiedener Button Status.
Die wichtigsten Learnings aus der Studie
- Klare und fokussierte Fragestruktur sind sehr wichtig für eine gute UX
Besonders die Gestaltung des Sprachdialogs muss klar und effizient strukturiert sein und dem Benutzer Hilfestellung sowie eine Fragestruktur bieten, welche die Antwortmöglichkeiten einschränkt. Auf diese Weise ist es möglich einen Teil der aktuell bestehenden Herausforderungen, welche durch die Nutzung von Sprachschnittstellen entstehen, wie beispielsweise Verständnisschwierigkeiten, variabler Wortwahl, oder in der Sprache-zu-Text Übersetzung möglichst zu minimieren. - Visuelle Unterstützung reduziert die kognitive Belastung
In einer sprachbasierten Applikation ist eine visuelle Unterstützung insbesondere da wichtig, wo der Nutzer in einem einem sehr kurzen Zeitfenster viele Informationen aufnehmen und dann eine Entscheidung treffen muss. Denn so kann sich der Benutzer die möglichen Optionen über den Sehsinn aufnehmen, Verarbeiten und ohne Druck seine Auswahl treffen. Auf diese Weise kann die kognitive Belastung möglichst gering gehalten werden. - Systempersona als Grundlage sehr wichtig
Des Weiteren zeigt die Nutzung durch SmartBlue, dass die intrinsisch geprägte Motivation zu einem bestimmten Verhalten führt, um die grundsätzlichen Bedürfnisse wie Autonomie, Kompetenz und Verbundenheit zu stillen, das zu Wohlbefinden führt und die menschlichen Wachstumsziele fördert. Deshalb ist es von Bedeutung auf Basis der Systempersona ein Wesen zu entwickeln, um bewusst die Wahrnehmung des Benutzers zu steuern, damit er sich ein Bild von der Sprachschnittstelle machen kann, die den folgenden Designprozess unterstützt und damit die User Experience beeinflussen kann.
Fazit
Durch die Studie konnte ich nachweisen, dass alle Probanden eine positive User Experience durch beide Prototypen erfahren. Erkennbar war das der Prototyp mit dem Fokus auf die Visualisierung positivere Werte erzielte als der Prototyp mit dem Fokus Sprache. Das lag vorallem an der deutlich höheren Anzahl visualisierter Elemente. Die Entwicklung einer Sprachschnittstelle mit visueller Unterstützung muss ganzheitlich betrachtet werden. Die Aspekte, die zur positiven User Experience führten, lagen nicht nur in der Datenerhebung zu Beginn eines Gestaltungsprozesses, sondern auch an den wissenschaftlichen Ansätzen zur User Experience und an den Erkenntnissen zur Usability interaktiver Systeme. Sowie das Entwickeln von Sprachschnittstellen mit hilfe einer Benutzer- und Systempersona, die im gesamten Designprozess und zur Dialogentwicklung eingesetzt wurde. Ein wirklich nutzerzentriertes Vorgehen zahlt sich vor allem bei solch neuen Technologien, die die Nutzer erst adaptieren müssen, also aus.
Wer mehr zum Thema Voice Commerce lesen möchte, findet hier ein paar Lese-Tipps und mehr Infos über meine Studie unter https://www.ybahmer.de/portfolio/smartblue
Weitere Links zum Thema:
- “Voice Commerce 2030: Einkaufen über Voice wird zu einer Selbstverständlichkeit” von Think with Google
- “Einkaufen per Sprachbefehl” von Digital Connection
- “Was ist Natural Language Processing?” von Big Data Insider
- “Experience Design – Technology for all the right reasons” von Marc Hassenzahl
- “Well-being, need fulfillment, and Experience Design” Marc Hassenzahl
- “Emotional Design: Why We Love (or Hate) Everyday Things” Don Norman