Qualität von KI und Chatbots messen & bewerten (10 Kriterien)

In 2023 haben über 100 Chatbots das Licht der Welt erblickt. Viele basieren auf gemeinsamen Modellen, wie GPT 3.5 und 4 von OpenAI. Doch nicht nur die zugrundeliegenden Modelle unterscheiden sich. Auch unterschiedliche Konfigurationen bei selbigen Modellen oder die Kombination von mehreren LLMs (Large Language Models) sorgen für eine große Vielfalt.

Die Stärken- und Schwächen der Chatbots herauszufinden ist eine fast nicht zu bewältigende Aufgabe, da wissenschaftliche bzw. systematische Ansätze oft nicht bekannt sind und sich die Modelle sowie die darauf basierenden Service zu schnell ändern. Dieser Artikel soll Impulse geben, wie einfache Kriterien zur Messung der Qualität von KI und Chatbots implementiert werden könnten.

Bewertungskriterien für die KIs/Chatbots

Bei der Bewertung der Qualität von Dialog-optimierten KIs sprechen wir spezifischer von der Qualität des Outputs. Der Einfachheit halber gehen wir in diesem Artikel davon aus, das der Empfänger ein Mensch ist und kein weiterer Algorithmus. Entsprechend nahe liegt die These, dass Attribute wie „Menschlichkeit“ bzw. „Natürlichkeit“ der Antworten sowie „Verständlichkeit“ und „Interaktivität“ als doch sehr objektive Faktoren auch eine Rolle spielen, wenn wir die Qualität messen wollen. Eine hohe Qualität würden wir somit einem Chatbot beimessen, der subjektiv korrekte Antworten liefert und diese wahrgenommen authentisch, schnell und natürlich dem User zur Verfügung stellt.

Folgende Kriterien würde ich als Diskussionsgrundlage in den Raum stellen:

Kriterium	Erklärung	Vorteile	Nachteile	KPI Definition (mit Einheit)	Messmethode
Reaktionsgeschwindigkeit	Wie schnell antwortet der Chatbot?	Schnellere Antworten erhöhen die Benutzerzufriedenheit.	Zu schnelle Antworten können als unnatürlich empfunden werden.	Zeit zwischen Benutzereingabe und Bot-Antwort (Einheit: Sekunden)	Zeitmessung der Antwortzeiten
Genauigkeit der Antwort	Wie genau und relevant sind die Antworten?	Genauere Antworten steigern das Vertrauen in den Bot.	Falsche Antworten können zum Misstrauen führen.	Prozentsatz korrekter Antworten (Einheit: %)	Analyse der Chat-Protokolle und Benutzerbewertungen
Verständlichkeit	Ist der Output klar und einfach zu verstehen?	Klare Antworten fördern ein reibungsloses Benutzererlebnis.	Unklare Antworten können zur Verwirrung führen.	Prozentsatz der Antworten, die keine Rückfragen erfordern (Einheit: %)	Benutzerumfragen und Analyse der Folgefragen
Personalisierung	Passt sich der Chatbot den individuellen Bedürfnissen des Benutzers an?	Erhöht die Benutzerbindung und Zufriedenheit.	Kann Datenschutzbedenken aufwerfen.	Prozentsatz personalisierter Antworten (Einheit: %)	Tracking der Antwortvariationen und Benutzerfeedback
Mensch-ähnlicher Dialog	Wie natürlich und menschenähnlich ist der Dialog des Chatbots?	Ein natürlicher Dialog kann das Benutzererlebnis verbessern.	Zu menschenähnlich kann manchmal gruselig oder unecht wirken.	Skala der Menschlichkeit (Einheit: Skala 1-10)	Benutzerbewertung oder Expertenbewertung
Fehlerbehandlung	Wie geht der Chatbot mit Fehlern oder unerwarteten Eingaben um?	Eine gute Fehlerbehandlung verhindert Benutzerfrustration.	Schlechte Fehlerbehandlung kann zum Abbruch des Gesprächs führen.	Prozentsatz erfolgreicher Fehlerbehandlungen (Einheit: Skala 1-10)	Testen mit unerwarteten Eingaben und Fehlerprotokoll
Skalierbarkeit	Kann der Chatbot eine Vielzahl von Themen/Anfragen bearbeiten?	Ein skalierbarer Chatbot kann eine breitere Benutzerbasis bedienen.	Ein zu breiter Fokus kann die Genauigkeit verringern.	Anzahl der unterschiedlich behandelten Themen/Anfragen (Zählwert)	Analyse der behandelten Themen und Anfragen
Interaktivität	Fördert der Chatbot Interaktion, z.B. durch Vorschläge oder Follow-up-Fragen?	Erhöht die Benutzerbindung und fördert die Kommunikation.	Zu viel Interaktivität kann aufdringlich wirken.	Anzahl der vom Chatbot initiierten Interaktionen (Einheit: n in Bezug auf Referenz eines Vergleichsobjekts)	Tracking und Analyse der Chat-Protokolle
Multimodalität	Kann der Chatbot mit verschiedenen Kommunikationsmodi umgehen (Text, Sprache, Bilder)?	Erhöht die Zugänglichkeit und Flexibilität des Chatbots.	Kann die Komplexität und Entwicklungskosten erhöhen.	Anzahl der unterstützten Kommunikationsmodi (Einheit: n in Bezug auf Referenz eines Vergleichsobjekts)	Überprüfung der Bot-Funktionalitäten
Feedback-Mechanismus	Gibt es eine Möglichkeit für Benutzer, Feedback zum Chatbot zu geben?	Kontinuierliche Verbesserung durch Benutzerfeedback ist möglich.	Negatives Feedback kann dem Image schaden.	Anzahl der erhaltenen Feedbacks (Einheit: n in Bezug auf Referenz eines Vergleichsobjekts)	Feedback-Erfassungssystem und -analyse

ki-praxisbeispiele.de

Durchführung einer Qualitätsbewertung eines Chatbots

Wir schauen uns nun einmal an, wie wir ein solches Kriterium messen würden. Die Reproduzierbarkeit und Objektivität stehen dabei im Mittelpunkt. Das ganze sollte standardisiert dokumentiert werden.

Qualitätsbewertung eines Chatbots am Beispiel des Attributs Reaktionszeit:

Testfall-ID#	1
Kriterium	Reaktionszeit
Chatbot	XY

Beschreibung: Dieser Testfall zielt darauf ab, die Reaktionszeit des Chatbots XY zu messen, also die Zeit, die der Bot benötigt, um auf eine Benutzeranfrage zu antworten.

Vorbedingungen:

Der Chatbot ist online und funktionsfähig.
Es gibt eine stabile Internetverbindung.
Es gibt keine anderen laufenden Prozesse, die die Reaktionszeit beeinflussen könnten.

Testablauf:

Öffnen Sie den Chatbot
Senden Sie eine Standardfrage an den Chatbot, z. B. „Was sind Ihre Öffnungszeiten?“.
Starten Sie zeitgleich einen Timer oder ein Tool, das die Zeit genau messen kann.
Stoppen Sie den Timer sofort, wenn die Antwort des Chatbots erscheint bzw. vollständig geschrieben wurde. Das ist zu Beginn zu definieren.
Notieren Sie die gemessene Zeit.
Wiederholen Sie die Schritte 2-5 mindestens fünfmal, um eine durchschnittliche Reaktionszeit zu erhalten.
Führen Sie den Test zu verschiedenen Tageszeiten durch, um eventuelle Schwankungen in der Reaktionszeit zu berücksichtigen.

Erwartete Ergebnisse: Die durchschnittliche Reaktionszeit des Chatbots sollte weniger als 2 Sekunden betragen (oder einen anderen festgelegten Schwellenwert, je nach den Anforderungen).

Tatsächliche Ergebnisse: [Hier würde der Tester die tatsächlich gemessene durchschnittliche Reaktionszeit eintragen.]

Status: [Bestanden/Nicht bestanden/Bewertung/Schulnote, je nach tatsächlichem Ergebnis.]

Tipp: Eine Bildschirmaufzeichnung kann das Messen erleichtern. So wäre zusätzlich jeder Messdurchgang protokolliert.

Systematischer Ansatz zur Bewertung der Qualität von KIs / Chatbots

Das Analytic Hierarchy Process (AHP) ist ein strukturierter Ansatz zur Navigation komplexer Entscheidungsprozesse, der sowohl qualitative als auch quantitative Überlegungen berücksichtigt. Dabei wird eine Hierarchie von Qualitätsattributen erstellt und Metriken für jedes Attribut ausgewählt. Anschließend werden paarweise Vergleiche zwischen den Qualitätsattributen durchgeführt und Prioritäten bestimmt. Software kann diesen Prozess erleichtern. Bei Chatbots kann AHP verwendet werden, um verschiedene Versionen oder Verbesserungen eines Systems zu bewerten, wobei die Qualität anhand festgelegter Metriken gemessen wird.

Um konkret zu werden beziehe ich mich auf ein Paper namens „Evaluating Quality of Chatbots and Intelligent Conversational Agents“. Die Quelle findest du unten.

Im Analytic Hierarchy Process (AHP) wird eine Struktur aus Kategorien und ihren zugehörigen Qualitätsattributen erstellt. Beispielsweise hat die Kategorie „Performance“ die Qualitätsattribute „Widerstandsfähigkeit gegenüber unerwartetem Input“ und „Bietet geeignete Eskalationskanäle“. Die Kategorie „Menschlichkeit“ umfasst Attribute wie „Transparenz bei der Inspektion (bekannter Chatbot)“, „Fähigkeit, themenbezogene Diskussionen aufrechtzuerhalten“ und „Kann auf spezifische Fragen antworten“. In der Kategorie „Affect“ stehen Eigenschaften wie „Bietet Begrüßungen, angenehme Persönlichkeit“ und „Unterhaltsam, ansprechend“ im Fokus. Schließlich beinhaltet die Kategorie „Zugänglichkeit“ Qualitätsattribute wie „Kann Bedeutung und Absicht erkennen“ und „Reagiert angemessen auf soziale Hinweise“. Jede dieser Kategorien wird in einer Prioritätsmatrix bewertet, wobei die relative Bedeutung der Qualitätsattribute zueinander dargestellt wird, um die Effektivität verschiedener Chatbot-Versionen zu beurteilen.

	Performance	Menschlichkeit	Affect	Accessibility
Performance	1	7	7	1/3
Menschlichkeit	1/7	1	1/5	1/7
Affect	1/7	5	1	1/7
Accessibility	1/3	7	7	1

Beispiel Menschlichkeit:

Transparenz bei der Inspektion (bekannter Chatbot)
Fähigkeit, themenbezogene Diskussionen aufrechtzuerhalten
Kann auf spezifische Fragen antworten

	Transparenz	Themenb. Disk. aufrechterhalten	Spezifische Fragen
Transparenz	1	1/5	1/5
Themenb. Disk. aufrechterhalten	5	1	1
Spezifische Fragen	5	1	1

Man beginnt mit paarweisen Vergleichen zwischen den Kategorien. Man verwendet hierfür die Zahlen 1, 3, 5, 7 und 9 in einer Matrix, um die Wichtigkeit der Kategorien in Beziehung zueinander darzustellen. Dabei steht die Zahl 1 in der Diagonalen der Matrix, da eine Kategorie im Verhältnis zu sich selbst weder wichtiger noch weniger wichtig ist. Innerhalb jeder Kategorie erstellt man dann eine Prioritätsmatrix, um die relative Bedeutung jedes Qualitätsattributs im Vergleich zu den anderen zu zeigen. Schließlich vergleicht man die gemessenen Werte verschiedener Chatbot-Versionen in Bezug auf jedes Qualitätsattribut, um ihre Effektivität zu bewerten.

Quelle: Evaluating Quality of Chatbots and Intelligent Conversational Agents von Nicole Radziwill und Morgan Benton / https://arxiv.org/pdf/1704.04579.pdf