Masterarbeit zur thematischen Klassifikation von Beteiligungsbeiträgen mit Active Learning

Im Rahmen seiner Masterarbeit im MA Informatik an der Heinrich-Heine-Universität Düsseldorf hat sich Boris Thome mit der Klassifikation von Beteiligungsbeiträgen nach den enthaltenen Themen beschäftigt. Diese Arbeit führt die Arbeit von Julia Romberg und Tobias Escher fort, indem eine feinere Einteilung der Beiträge nach Unterkategorien untersucht wurde.

Zusammenfassung

Politische Behörden in demokratischen Ländern konsultieren die Öffentlichkeit regelmäßig zu bestimmten Themen, doch die anschließende Auswertung der Beiträge erfordert erhebliche personelle Ressourcen, was häufig zu Ineffizienzen und Verzögerungen im Entscheidungsprozess führt. Eine der vorgeschlagenen Lösungen ist die Unterstützung der menschlichen Analyst*innen bei der thematische Gruppierung der Beiträge durch KI.

Überwachtes maschinelles Lernen (supervised machine learning) bietet sich für diese Aufgabe an, indem die Vorschläge der Bürger nach bestimmten vordefinierten Themen klassifiziert werden. Durch die individuelle Natur vieler öffentlicher Beteiligungsverfahren ist der manuelle Aufwand zur Erstellung der benötigten Trainingsdaten jedoch oft zu teuer. Eine mögliche Lösung, um die Menge der Trainingsdaten zu minimieren, ist der Einsatz von Active Learning. In unser vorherigen Arbeit konnten wir zeigen, dass Active Learning den manuellen Annotationsaufwand zur Kodierung von Oberkategorien erheblich reduzieren kann. In dieser Arbeit wurde nachfolgend untersucht, ob dieser Vorteil auch dann noch gegeben ist, wenn die Oberkategorien in weitere Unterkategorien unterteilt werden. Eine besondere Herausforderung besteht darin, dass einige der Unterkategorien sehr selten sein können und somit nur wenige Beiträge umfassen.

In der Evaluation verschiedener Methoden wurden Daten aus Online-Beteiligungsprozessen in drei deutschen Städten verwendet. Die Ergebnisse zeigen, dass die maschinelle Klassifikation von Unterkategorien deutlich schwerer ist als die Klassifikation der Oberkategorien. Dies liegt an der hohen Anzahl von möglichen Unterkategorien (30 im betrachteten Datensatz), die zusätzlich sehr ungleich verteilt sind. Im Fazit ist weitere Forschung erforderlich, um eine praxisgerechte Lösung für die flexible Zuordnung von Unterkategorien durch maschinelles Lernen zu finden.

Publikation

Thome, Boris (2022): Thematische Klassifikation von Partizipationsverfahren mit Active Learning. Masterarbeit am Institut für Informatik, Lehrstuhl für Datenbanken und Informationssysteme, der Heinrich-Heine-Universität Düsseldorf. (Download)