Springe zum Hauptinhalt
Europäische Geschichte studieren in Chemnitz
Transkriptions- und Editionsprojekt Ordensfoliant 107

Forschungsprojekt: Spätmittelalterliche Urkunden des Deutschen Ordens und die Lesefähigkeit Künstlicher Intelligenz via Handwritten Text Recognition

Die Professur für Europäische Regionalgeschichte am Institut für Europäische Studien und Geschichtswissenschaften erforscht in Kooperation mit dem Geheimen Staatsarchiv Preußischer Kulturbesitz die Anwendung von Transkribus bezüglich Besitzurkunden des Deutschen Ordens aus dem 14. und 15. Jahrhundert.

Ausschnitt der Seite 221 verso aus dem OF107.

Seit 2021 führt Prof. Dr. Grischa Vercamer in Kooperation mit dem Geheimen Staatsarchiv Preußischer Kulturbesitz in Berlin ein Pilotprojekt zur Anwendbarkeit von Künstlicher Intelligenz auf spätmittelalterliches Schriftgut (14./15. Jahrhundert) durch. Dieses wird momentan noch durch TUC-Gelder der Forschungspauschale bestritten (Bearbeiter ist die Studentische Hilfskraft Erik Neunes), soll aber bald in ein reguläres DFG-gefördertes Projekt übertragen werden.
Ziel des Projekts ist es, serielle Quellen des Spätmittelalters mit ähnlichem Inhalt und ähnlicher Schrifttype, wie beispielsweise bei dem Verwaltungsschriftgut des Deutschen Ordens in Preußen und Livland, via Handwritten Text Recognition (HTR) durchsuchbar zu machen und derart aufzubereiten, dass durch die Künstliche Intelligenz für eine weitergehende (Online-)Edition der Quellen bereits wichtige Arbeitsschritte abgenommen werden.
In etwa vergleichbar ist dieses Vorgehen mit der weitverbreiteten OCR-Technik (Optical Character Recognition), die heutzutage in Programmen wie Adobe Acrobat eingebettet ist und Textdokumente sehr schnell durchsuchbar macht. Weit jüngeren Datums und daher momentan noch wenig bekannt ist eben die Handwritten Text Recognition, wo es – der englische Name suggeriert es – um Handschriftenerkennung geht. Darin liegt ein beträchtliches Potential für die Gesellschaft insgesamt und insbesondere für HistorikerInnen: Vormoderne Quellen können sehr schnell erschlossen werden, indem Künstliche Intelligenz nach entsprechendem Training die Erkennung individueller Handschriften selbständig erlernt und diese anschließend transkribiert und durchsuchbar macht. Zudem kann gleichzeitig eine Textumwandlung in eine moderne Schriftart (wie z.B. Times New Roman) vorgenommen werden, welche als Grundlage für eine Edition der Texte genutzt werden kann. Voraussetzung hierfür ist ein solider Ground-Truth-Datensatz, auf dessen Grundlage die entsprechenden Modelle erstellt werden.
Dieses alles wird durch das Programm Transkribus ermöglicht. Es basiert auf dem EU-Projekt READ (2016-2019) und ist heute Eigentum der Innsbrucker Universitätsausgründung und Firma READ-COOP SCE. Das Programm erlaubt das Einlesen von handschriftlichen Texten via PDF, JPEG oder anderen gängigen Dateiformaten sowie das anschließende Training von Modellen mit den HTR-Engines PyLaia und/oder HTR+. Die Entwicklung eines HTR-Modells kann auf zwei Weisen erfolgen: Entweder man trainiert auf Basis eigenen Materials oder man nutzt ein schon vorhandenes Modell, welches mit ähnlichen Schriften bereits früher trainiert und allgemein zugänglich gemacht wurde.
Diese Technik wurde bislang v.a. auf jüngeres handschriftliches Schriftgut (19./20. Jahrhundert) angewendet, kann aber bei entsprechendem Training völlig unproblematisch auf Handschriften des Spätmittelalters übertragen werden.
Die Professur hat dafür in Zusammenarbeit mit dem Geheimen Staatsarchiv Preußischer Kulturbesitz in Berlin dortige Archivalien in den Blick genommen. Die spätmittelalterlichen Ordensfolianten der XX. Hauptabteilung des GStA PK zählen zu den bedeutendsten Beständen zur Erforschung der mittelalterlichen Geschichte des Deutschen Ordens. In einem ersten Experiment werden momentan die Ordensfolianten 107 und 108 (welche Güterurkunden aus dem Samland und Königsberg, heute also Kaliningrad, enthalten) bearbeitet.

Graph der Lernkurve des trainierten Modells von Anfang 2022.Graph der Lernkurve des trainierten Modells von Anfang 2023.

Gegenüberstellung der anfänglichen Lernkurve (Frühjahr 2022) auf der linken Seite und einem aktuellen Ergebnis (Anfang 2023) auf der rechten Seite. (X-Achse: Anzahl der Epochen - Gibt an, wie oft die Trainingsdaten ausgewertet wurden; Y-Achse: Character Error Rate - Vergleich der Gesamtzahl der Zeichen die erforderlich sind, um das Ergebnis der Grundwahrheit zu erhalten. Selbst kleinste Trankriptionsfehler, z.B. Leerzeichen oder Kommata, gelten hierbei als statistisch vollwertig.)

Die bisherigen Ergebnisse zeigen beispielhaft, dass auch eine spätmittelalterliche deutsche gotische Minuskel (der damalige Schrifttypus) mit diversen Abkürzungen gut durchsuchbar gemacht werden kann. Vereinzelt sind auch lateinische Urkunden enthalten, deren automatische Erkennung bisher jedoch noch etwas Schwierigkeiten bereitet. Die Folianten enthalten im Durchschnitt 500 Folioseiten und es scheint auszureichen (das resultiert aus bisherigen Experimenten), ca. 100 Seiten (also 20 %) eigenständig von Menschenhand zu transkribieren, um dann daraus ein Modell zu trainieren, welches den Rest des Folianten durch KI transkribiert. Besonders gut funktioniert die Erkennungssoftware dann, wenn (a) nur wenige Schreiberhände beteiligt sind und (b) die Grundlage von seriellem Schriftgut gebildet wird, d.h. beispielsweise Urkunden, in denen immer wiederkehrende Phrasen auftauchen. Dabei ist eine Fehlerrate von ca. 3-5 % gegeben, die sich besonders auf Eigennamen bezieht. Diese müssen also in einem anschließenden Kontrollgang noch von Menschenhand korrigiert werden. Es ist zu erwarten, dass die Fehlerrate weiter sinkt, da zukünftig die Transkriptionsergebnisse des Modells nach entsprechender Prüfung wiederum für dessen eigenes Training verwendet werden.
Ein erstes Etappenziel des Projekts ist damit erreicht, die beiden Ordensfolianten 107 und 108 konnten durch ein Modell auf Grundlage von PyLaia bei einer gut tolerierbaren Fehlerrate mit Volltextsuche (Solr) durchsuchbar gemacht werden. Im Rahmen der Forschungspauschale sollen die KI-Transkriptionen gewissenhaft überprüft, Regesten der Urkunden angefertigt sowie eine abrufbare Webseite gestaltet werden, damit auch andere Nutzer von der Durchsuchbarkeit profitieren können.
Weitergehendes Ziel des Projekts ist es (dann bereits auf DFG-Basis), ein größeres Modell zu trainieren, welches bei einer gleichbleibenden Fehlerrate von 3-5 % auch anderes Schriftgut des Deutschen Ordens erkennt. Besonders ist dabei an das Ordensbriefarchiv zu denken, welches für das 14.-16. Jahrhundert ca. 30.000 Briefe enthält. Diese Briefe haben selbstverständlich verschiedenen Inhalte und sind zudem von verschiedenen Schreibern angefertigt worden, was also eine ordentliche Herausforderung für Transkribus darstellen dürfte. Auch soll – aufgrund der bisherigen Transkriptionen – eine digitale Edition der Ordensfolianten 107 und 108 angefertigt werden.

Ausschnitt der Seite 2 verso aus dem OF107.