Studie untersucht Bewertung der Deutschmatura

Für die Zentralmatura sind Bewertungsraster für schriftliche Arbeiten im Fach Deutsch entwickelt worden. Eine Studie der Uni Klagenfurt ergab nun, dass eine Schulung der Lehrer auf diese Methode unumgänglich sei, außerdem müsste nachgebessert werden.

Günther Sigott und Hermann Cesnik von der Universität Klagenfurt stellten kürzlich die Ergebnisse einer Studie zur Stabilität von Skalendeskriptoren im Bewertungsraster für die österreichische Matura aus Deutsch vor. Das Ergebnis: Je besser die Lehrer, die Arbeiten bewerten, auf diese Art der Beurteilung geschult sind, desto eher kommen sie auf ähnliche Bewertungsergebnisse.

Skalen werden interpretiert

Schreibleistungen können mit Skalen oder Beurteilungsrastern bewertet werden. Charakteristisch für die Verwendung von Skalen ist, dass keine Fehler gezählt werden, sondern vielmehr versucht wird, den Gesamteindruck, der in der beurteilenden Person erweckt wird, einer Niveaustufe auf einer mehrstufigen Skala zuzuordnen, so eine Aussendung der Uni Klagenfurt. „Es geht also um einen qualitativen Beschreibungsansatz“, so Sigott vom Institut für Anglistik und Amerikanistik.

Anders als in Testverfahren spiele bei der direkten Beurteilung von sprachlichen Leistungen mittels Skalen die Interpretation der Skalen und der darin enthaltenen Formulierungen eine wesentliche Rolle. Man müsse sich also fragen: Wie interpretiert der oder die Beurteilende die Beschreibungen auf der Skala?

Studienteilnehmer noch nicht geschult

Sigott und Cesnik fragten sich für ihre Studie, inwiefern dieser Beurteilungsprozess „stabil“ sei, also möglichst viele Beurteilende zu denselben Interpretationen und Bewertungen kommen. An der Studie nahmen 117 noch nicht für diese Bewertungsform geschulte Lehrkräfte verschiedener Schultypen aus ganz Österreich teil.

„Die Ergebnisse zeigen, dass die Schulung der Beurteilenden zur Erhöhung der Übereinstimmung unumgänglich ist. Eine Verwendung der Skala durch nicht Geschulte ist nicht ratsam“, so Sigott. Einzelne Beschreibungen bei Niveaustufen, so genannte Deskriptoren, stellten sich als wenig stabil heraus, was für Sigott eine Überarbeitung des Beurteilungsrasters in diesen Bereichen nötig macht, die derzeit im Gang sei.

Bei unterem Leistungsniveau unterschiedlich

Interessant sei, dass die Interpretationen beim untersten Leistungsniveau am meisten variabel waren. Hingegen konnten die Forscher feststellen, dass „es ein hohes Maß an Konsens über die erwarteten Charakteristika von exzellenter Leistung zu geben scheint“. Beim höchsten Niveau wurden die Beschreibungen der einzelnen Leistungsbereiche am einheitlichsten von den Beurteilenden interpretiert.

Der Beitrag wurde in der ersten Ausgabe des Ende Jänner vorgestellten Open-Access-Journals „Colloquium: New Philologies“ vorgestellt.

Link zur Studie:

PDF (194.0 kB)