Ich habe jetzt einige Bände Japanisch im Sauseschritt durch den Scanner gejagd (ein RICOH Großgerät Kopierer/Drucker/Scanner etc.) und mir als PDFs nach Hause gebeamt. Für Band 2B habe ich 400 dpi gewählt und für 3B 600 dpi. Dann habe ich OCR (Japanisch) über Adobe Acrobat Pro 9 drüber laufen lassen. Mir fehlt die Zeit - und fehlen auch noch Beobachtungen - um systematsiche Ergebnisse vorzutragen, wie sich die Auflösungen auf die OCR-Ergebnisse auswirken.
Ich fange mal "klein" (mit den Furigana und mit 400 dpi) an und ergänze später, falls es nicht belanglosigkeitshalber unerwünscht sein sollte:
Lesen:
- Bei 400 dpi kann ich erst einmal im Scannergebnis die Furigana sehr gut lesen (meine Augen sind froh, wenn ich dabei die Ansicht im Reader auf 200% hochzoome). Schlaufen in den Furigana-Zeichen werden als solche und nicht als bloße Striche dargestellt. Wenn man die Ansicht im Reader etwa auf 600% vergrößert sieht man freilich, dass die Furigana-Linien schon stark pixelig, weil lediglich ein bis zwei Pixel "breit" (besser: "schmal") sind. Ästhetisch ist das dann nicht mehr und man kann auch daraus resultierende OCR-Verfälschungen befürchten.
OCR-Ergebnisse (bei horizontaler Schriftanordnung, in JiS-üblicher Normalschriftgröße):
- Hiragana/Katakana werden gut erkannt. Ich kann sie markieren, kopieren und erhalte die gleichen Zeichen aus der Zwischenablage, die ich im Bild vor mir markiert und kopiert habe.
- Kanji: Die Radikale werden wohl recht gut erkannt (soweit ich bisher getestet habe). Z.B. habe ich auf Seite 27 stichprobenhalber einen Satz markiert und kopiert und kann ihn jetzt hier einfügen: "Beispiel: 彼が昨日この本を持ってきたことは秘密です。" Die darüber gestellten Furigana der Kanji kann ich als eine eigene Zeile mit einem Doppelklick markieren und füge sie hier auch in linearer Aufeinanderfolge ein: "かれきのうほんもひみつ". Und zuletzt noch die folgende Übersetzungs-Zeile aus dem Buch: "Dass er gestern dieses Buch mitgebracht hat,ist ein Geheimnis." Sowohl die deutschen wie die japanischen Zeichen wurden also korrekt erkannt. Sehr schön soweit.
Aber das klappt leider nicht in jeder Zeile, denn es gibt Artefakte in verschiedener Form:
1. Teilweise werden Furiganazeilen gar nicht texterkannt und lassen sich somit auch nicht markieren und kopieren.
2. Teilweise werden die einzelnen Radikale oder Grapheme der Kanji als eigenes Kanji missgedeutet. So wird im Satz "私の 専門の 仕事が できませんでしたから、おもしろくなかったんです。" (Seite 25) das Kanji "仕" aus dem Kompositum "仕事" ("Beruf") in seine Bestandteile ("イ士") zerlegt, obwohl der restliche Satz korrekt erkannt wurde (Übersetztungszeile: "Meine Arbeit dort hatte nichts mit meinem Fachgebiet zu tun und hat mich deshalb nicht so interessiert").
Bei 600 dpi:
Lesen:
-Bei 600 dpi sind auch die Furigana (bei 600% Zoom im Reader betrachtet) nicht mehr/kaum noch pixelig, sondern schön in ihrer Form wiedergegeben.
OCR-Ergebnisse (bei horizontaler Schriftanordnung, in JiS-üblicher Normalschriftgröße):
Ich kann bei 600 dpi keine grundsätzliche Verbesserung der OCR-Resultate gegenüber 400 dpi-Scannmaterial erkennen. Die gleichen Artefakte kommen erneut vor. Meine Erfahrung ist aber noch sehr begrenzt, das Urteil nicht ausgereift.
Bilanz:
Wohl aufgrund der größeren Dateigröße bei 600dpi sind einige der E-Mails, die ich vom Scanner an meine Email-Adresse verschickt habe, nicht in meiner Mailbox angekommen. Vielleicht ist eine Beschränkung für Emails über 25 MB meinerseits oder Seitens des Scanners Schuld daran (das habe ich noch nicht nachgeprüft).
- Die Gesamt-Dateigröße (als PDF) für JiS Band 1 (Romaji-Version; 161 Doppelseiten) bei 300 dpi beträgt bei mir ~47 MB (nach OCR in deutscher Schrift: ~15 MB)
- Die Gesamt-Dateigröße (als PDF) für JiS Band 2B (161 Doppelseiten) bei 400 dpi beträgt bei mir ~88 MB (nach OCR in japanischer Schrift: ~25 MB)
- Die Gesamt-Dateigröße (als PDF) für JiS Band 3B (176 Doppelseiten) bei 600 dpi beträgt bei mir ~192 MB (nach OCR in japanischer Schrift: ~40 MB)
Ich werde wohl künftig japanische Buchvorlagen standardmäßig mit 400 dpi einscannen. Ein Test mit einem Buch, das keine Furigana verwendet (Saito & Silberstein: "Grundkurs der modernen jp. Sprache", Aufl. v. 1988, 324 Doppelseiten mit 400 dpi als PDF eingescannt: ~124MB, nach OCR in japanischer Schrift: ~38 MB) und dessen Ergebnisse ich über die Zwischenablage und Such- und Markierfunktion auf der
digitalisierten Seite des Buches schnell stichprobenartig gegenprüfen konnte, ergab gute Ergebnisse.