Zum Hauptinhalt springen

Journal of Educational Data Mining

Predicting Perceived Text Complexity: The Role of Person-Related Features in Profile-Based Models

Die Komplexität eines Textes ist stets subjektiv, da sie nicht nur durch sprachliche Eigenschaften bestimmt wird, sondern auch von der Wahrnehmung des Lesenden geprägt ist. Faktoren wie Vorwissen, Sprachkenntnisse und kognitive Fähigkeiten beeinflussen, wie einzelne Lesende den Schwierigkeitsgrad eines Textes einschätzen. Bestehende Methoden zur Messung der Textkomplexität stützen sich in der Regel auf quantitative linguistische Merkmale und lassen Unterschiede im Hintergrund des Lesenden außer Acht. In diesem Beitrag evaluieren wir mehrere Machine-Learning-Modelle, die die Komplexität von Texten aus der Sicht von Jugendlichen bestimmen. Hierfür haben wir von 193 Schülerinnen und Schülern unterschiedlicher demografischer Hintergründe, Schulnoten und Sprachkenntnissen insgesamt 3.954 deutsche Sätze zur Studien- und Berufswahl annotieren lassen. Der Textkorpus basiert auf offiziellen Handbüchern zur Studien- und Berufswahl. Im Gegensatz zu bestehenden Methoden zur Bestimmung der Textkomplexität ahmt unser Modell die Zielgruppe nach und trägt den unterschiedlichen Hintergründen der Lesenden damit Rechnung. Die Annotationen zeigen, dass die Jugendlichen die Texte im Allgemeinen als deutlich einfacher empfanden, als es der Flesch-Reading-Ease-Score vermuten lässt. Wir zeigen, dass K-Nearest-Neighbors-, Multilayer-Perceptron- und Ensemble-Modelle bei der Vorhersage der subjektiv wahrgenommenen Textkomplexität gut abschneiden. Darüber hinaus zeigen SHapley-Additive-exPlanation(SHAP)-Werte, dass sich diese Wahrnehmungen nicht nur nach den sprachlichen Merkmalen des Textes unterscheiden, sondern auch nach der Muttersprache, dem Geschlecht und der selbsteingeschätzten Deutschkenntnisse der Schülerinnen und Schüler. Zusätzlich implementieren wir role play prompting mit ChatGPT und Claude und zeigen, dass moderne große Sprachmodelle Schwierigkeiten haben, die wahrgenommene Textkomplexität aus der Perspektive eines Lesenden richtig einzuschätzen. Damit leistet diese Arbeit einen wichtigen Beitrag zum wachsenden Feld der Anpassung der Textkomplexität an die Bedürfnisse des Zielpublikums, indem sie über quantitative linguistische Merkmale hinausgeht. Der Datensatz ist unter https://github.com/boshl/studentannotations öffentlich zugänglich.

Thome, B., F. Hertweck und S. Conrad (2025), Predicting Perceived Text Complexity: The Role of Person-Related Features in Profile-Based Models. Journal of Educational Data Mining, 17, 1, 276-307

DOI: 10.5281/zenodo.15575437