Metriken für eine stärker nutzendenzentrierte Evaluation der Klassifikationsgüte

In diesem Beitrag auf der 14th International Conference on Recent Advances in Natural Language Processing werden Metriken vorgestellt, um praxisrelevante Anforderungen der Einsetzbarkeit von KI-basierten Werkzeugen zu evaluieren.

Zusammenfassung

Eine Lösung für begrenzte Annotationsbudgets ist aktives Lernen (Active Learning / AL), ein gemeinschaftlicher Prozess von Mensch und Maschine zur strategischen Auswahl einer kleinen, aber informativen Menge von Beispielen. Während aktuelle Maßnahmen AL aus der Perspektive des maschinellen Lernens optimieren, argumentieren wir, dass für eine erfolgreiche Übertragung in die Praxis zusätzliche Kriterien auf die zweite Säule von AL, die menschlichen Annotator*innen, abzielen müssen. In der Textklassifikation , wo Praktiker*innen z.B. regelmäßig mit Datensätzen konfrontiert werden, die eine erhöhte Anzahl von unausgewogenen Klassen aufweisen, greifen Maße wie F1 zu kurz, wenn es darum geht, alle Klassen zu finden oder seltene Fälle zu identifizieren. Wir führen daher vier Maße ein, die die klassenbezogenen Anforderungen widerspiegeln, die Benutzer*innen an die Datenerfassung stellen.

In einem umfassenden Vergleich von Unschärfe-, Diversitäts- und hybriden Abfragestrategien auf sechs verschiedenen Datensätzen stellen wir fest, dass eine starke F1-Leistung nicht unbedingt mit einer vollständigen Klassenabdeckung verbunden ist. Uncertainty Sampling übertrifft Diversity Sampling bei der Auswahl von Minderheitsklassen und der effizienteren Abdeckung von Klassen, während Diversity Sampling bei der Auswahl von weniger monotonen Stapeln brilliert. Unsere empirischen Ergebnisse unterstreichen, dass eine ganzheitliche Betrachtung bei der Bewertung von AL-Ansätzen unerlässlich ist, um ihre Nützlichkeit in der Praxis sicherzustellen – das eigentliche, aber oft übersehene Ziel der Entwicklung. Zu diesem Zweck müssen Standardmaße für die Bewertung der Leistung von Textklassifikation durch solche ergänzt werden, die die Bedürfnisse der Nutzer besser widerspiegeln.

Wesentliche Ergebnisse

  • In dieser Publikation werden gänzlich neue Metriken vorgeschlagen, die auch berücksichtigen, wie gut z.B. seltene oder alle Klassen erkannt werden. Die Innovation zeigt sich nicht zuletzt darin, dass die vorgeschlagenen Metriken die Performanz der Klassifikationsmodelle anders bewerten als das etablierte F1-Kriterium.
  • Die vorgeschlagenen Metriken geben Einblick in das Verhalten verschiedener Active Learning-Strategien hinsichtlich klassenbezogener Eigenschaften auf den häufig imbalancierten Datensätzen. Diese Maße spiegeln stärker die Erfordernisse der Praxis wider, und können daher ggf. bei der Evaluation verschiedener KI-basierter Klassifikationsstrategien Anwendung finden.

Publikation

Romberg, J. (2023). Mind the User! Measures to More Accurately Evaluate the Practical Value of Active Learning Strategies. Proceedings of the 14th International Conference on Recent Advances in Natural Language Processing, 996–1006. https://aclanthology.org/2023.ranlp-1.107/