Zum aktuellen Adventskalender 2020

Adventskalender 2014 der TU Chemnitz

Das Erzgebirge im «Project Gutenberg»

D ie Wichtel suchen stets nach interessanten Fakten und Geschichten über das Erzgebirge. Sie werden oft in älteren Büchern fündig. Manch ein Bücherschrank beherbergt wahre Schätze, und mitunter haben Bibliotheken das Werk auch schon digitalisiert.

Wenn der Autor schon über 70 Jahre tot und somit das Urheberrecht erloschen ist, kann das Buch frei verwendet und veröffentlicht werden. Wenn die Seiten jedoch nur gescannt werden, sind die Leser oft nicht glücklich:

Vom Scan zum Text

OCR mit Abbyy Finereader

Es ist also sinnvoll, aus den gescannten oder abfotografierten Buchseiten den Text zu extrahieren. Da das Abtippen sehr mühsam wäre, versucht man natürlich, diesen Vorgang zu automatisieren – man spricht von OCR (Optical Character Recognition). Das übernehmen Programme wie beispielsweise Abbyy Finereader (kommerziell) oder Tesseract (Open Source, frei).

Während Antiqua-Texte recht gut erkannt werden, ist die Fehlerrate bei Frakturtexten deutlich höher. Die Buchstaben n und u sowie ſ (das lange S) und f werden häufig verwechselt, I und J werden durch das gleiche Zeichen dargestellt und können deshalb überhaupt nicht unterschieden werden. Zudem haben die von vergilbtem Papier gescannten Seiten oft wenig Kontrast, was die automatische Erkennung weiter erschwert.

Beispiel: Scan und erkannter Text einer Seite aus «Geyer und das Obererzgebirge».

Der Text muss also unbedingt manuell nachbearbeitet werden, ehe er wirklich verwendbar ist.

Project Gutenberg und Distributed Proofreaders

Moderne E-Books aus gescannten Büchern zu erstellen, kostet also viel Zeit. Gut, wenn diese Arbeit dann der Allgemeinheit zukommen kann. Aus diesem Grunde wurde bereits 1971 die Plattform gutenberg.org geschaffen (Genaueres zur Geschichte gibt es auf dem Projekt selbst als englisches E-Book).

Anfangs wurde jedes Buch von einer Einzelperson erstellt. Im Jahr 2000 kam dann die Idee auf, die Arbeit in kleine Häppchen zu zerlegen und auf viele Schultern – oder Augen – zu verteilen. Das war die Geburtsstunde der Project Gutenberg Distributed Proofreaders. Eine nicht ganz ernste und noch unvollständige Geschichte findet man hier (englisch).

Wer genauer nachlesen will, wie das Projekt arbeitet, findet hier eine Kurzbeschreibung.

Derzeit entstehen auf diese Weise knapp 200 Bücher pro Monat, darunter meist zwei bis vier deutschsprachige. Insgesamt wurden inzwischen fast 30 000 Bücher, davon 700 deutsche, produziert.

Erzgebirgische Buchprojekte

Titelseite des Stülpner-Buches

Im Frühjahr 2014 startete ich ein Projekt für ein Buch über Karl Stülpner, den berühmtesten Wilddieb des Erzgebirges, das nun (hoffentlich) kurz vor der Vollendung steht. Das Projekt hat alle Korrekturrunden durchlaufen und wurde zu einem elektronischen Buch zusammengesetzt. Das Ergebnis finden Sie nun auf Project Gutenberg.

Eine (nicht unbedingt vollständige) Übersicht historischer Erzgebirgsliteratur auf Project Gutenberg findet sich hier.


Vielleicht haben unsere Leser Lust zum Mitmachen bekommen? Deshalb stehen jetzt zwei Erzgebirgsbücher, die von der Sächsischen Landes- und Universitätsbibliothek Dresden digitalisiert wurden, zum Korrekturlesen und Prüfen für die Distributed Proofreaders bereit.

Melden Sie sich einfach mit einem Spitznamen und einer gültigen Mailadresse unter www.pgdp.net an und gehen nach der Anmeldung in die Runde P1. Hier finden Sie rechts unten die wichtigsten Dokumente. Für den Einstieg benötigen Sie die Proofreading Guidelines (in deutsch verfügbar, die PDF-Zusammenfassung gibt es leider nur englisch). Und schon kann es mit dem ersten Projekt losgehen.

Berlet: Wegweiser durch das sächsisch-böhmische Erzgebirge

Cover des «Wegweisers»

Das Buch erschien 1872 und ist in Antiqua gesetzt. Dem Drucker stand aber offenbar kein ß in seinem Setzkasten zur Verfügung, ebenso fehlen die großen Umlaute.

Hier zwei kleine Kostproben aus dem Inhalt:

Fremdenbesuch. – Das Erzgebirge ist bislang fast nur von Geschäftsreisenden und solchen Leuten besucht worden, die mit möglichster Schnelle durch Sachsen nach den böhmischen Kurorten eilten. Erst neuerdings sieht man zur Sommerzeit auf Strassen und Pfaden, in Thälern und auf Höhen Wanderer mit Seitentasche, Plaid und handfestem Regenschirm – sogenannte Touristen. … Weiterlesen.

Es folgt eine große Zahl von Touren als Übersicht:

Karte zur Tour

XXVII. Von Waldheim in das Muldenthal zwischen Rochlitz und Waldenburg.

1. Tag. Mit Eisenbahn nach Erlau. … Weiterlesen.

Daran schließen sich Detailbeschreibungen von Tageswanderungen und auch Bahnausflügen an.

Das Buch ist inzwischen fertiggestellt und kann von Project Gutenberg heruntergeladen werden.


Grohmann, Lungwitz: Geyer und das Obererzgebirge in Sage und Geschichte

Cover «Geyer und das Obererzgebirge»

Dieses 1900 erschienene und in Fraktur gesetzte Buch vereint zwei verschiedene, thematisch ähnliche Bücher. Der erste Teil berichtet aus der Geschichte von Geyer, z. B. über die Binge und Hieronymus Lotter, den berühmten Baumeister. Der zweite, größere Teil sammelt Fakten, Geschichten und Geschichtliches, Volksbräuche und Gedichte aus dem Obererzgebirge. Das Buch ist in Fraktur gesetzt.

Auch hier zwei Kostproben:

17. Weihnachten im Obererzgebirge.

Unter allen Festen des Jahres nimmt im Gebirge unstreitig das Weihnachtsfest die erste Stelle ein. Bereits einige Tage vor dem heiligen Abend reinigt die Hausfrau mit ihren Töchtern das ganze Haus, putzt Fenster und Gefäße und fegt die Stube. Auf die Dielen der Wohnstube streut sie Stroh, welches auch, so lange die Zwölfnächte dauern, liegen bleibt. … Weiterlesen

c. Die Namen der Spitzenmuster.

Erbsgrund, Batzen, Wickelkind,
Töpfe, worin Blumen sind,
Rohrstuhl, Mücken, Steingeränder,
Wanzen und auch Schlangenbänder,
Auch Pantoffeln, Hirschgeweih,
Quärche, Schwanzbirn, Stickerei,
Weiterlesen.

Dieses Buch ist kann auch von Project Gutenberg heruntergeladen werden.