Hallo Birnbaum, danke, dass Du mir die Tomaten von den Augen gepflückt hast.
Ich hatte ein anderes Bild hochgeladen, als geplant.
Was ist passiert? Die OCR verhaspelt sich, je nach Bildauflösung, mit den Furigana. Das von mir oben gezeigte Bild zeigt das html auf Basis der ersten Erkennung:
http://www.harerod.de/nihongo/pics/ABBYY_Reading.jpg <- mit Fehlern
Ich korrigiere die Fehler vor der Konvertierung nach html raus und korrigiere beim Lesen nochmal nach. Eigentlich hätte dieses Bild gezeigt werden sollen:
http://www.harerod.de/nihongo/pics/ABBYY_Reading2.jpg <- überarbeitete Version
Zur Illustration habe ich nochmal die OCR dieser Seite neu gestartet. Im folgenden Bild sieht man das Ergebnis vor der Nachbearbeitung. Die von Euch dankenswerterweise aufgezeigten Fehler sind tatsächlich als "unsicher" von der OCR markiert. Man sieht auch, dass nicht alle Furigana Probleme machen, die meisten werden ignoriert.
Einen zweiten typischen Fehler habe ich weiter unten markiert - eine Störung im Papier, die fälschlicherweise als Komma erkannt wird (な、).
Außerdem werden beim Zeilenumbruch Lehrzeichen eingefügt (z.B. 6. Zeile: "神聖 魔法").
http://www.harerod.de/nihongo/pics/ABBYY_Reading3.jpg <- direkt nach der Erkennung
Wie bereits erwähnt, korrigiere ich das alles während der Vorbereitung (1..2min pro Seite) und während des Lesens raus. Insgesamt für mich in diesem Anwendungszweck kein wirkliches Problem.
AwesomeSepp, nachdem mir 梨ノ木 nun aufgezeigt hat warum ich Deine Frage nicht verstanden hatte, antworte ich nun etwas detaillierter auf Deinen Post:
AwesomeSepp: "Denn das Suchen unbekannter Wörter, und sei es auch nur um die richtige Lesung zu verifizieren ist ein Zeitfresser."
Dann kennst Du sicher den Fall, dass Du die Bedeutung einzelner Kanji tatsächlich weißt, aber Dir bei der Lesung im vorliegenden Kontext nicht sicher bist. Genau dafür verwende ich eben Rikaichamp.
Die Fehlerkorrektur der OCR ist auch kein wirkliches Problem. Zum einen schreibe ich im IME blind im IME-Japanischen Layout. D.h. auch Sonderzeichen, wie 「」()... sind kein Problem. Zur Not habe ich hier einen Spickzettel:
http://www.harerod.de/nihongo/#IME
Der Finereader OCR-Editor ist weitgehend per Tastaturkürzeln bedienbar. Ist also der von mir gewünschte Bereich per Maus ausgewählt, geht die restliche Textbearbeitung flink auf der Tastatur. Ich kann Dir nur empfehlen, die einwöchige Teststellung mal auszuprobieren. Ich war nach ein paar Minuten begeistert. Im Programm selber war ich nach zwei Tagen drin. Das ist im Vergleich zu dem Gesamtaufwand der im Lernen der japanischen Sprache draufgeht absolut vernachlässigbar.
AwesomeSepp: "Bei umsonst software würde ich da evtl. drüberwegschauen, aber für über 100,- Euro?"
Der Sinn meines Posts sollte sein, ein Lesekonzept für Einsteiger zu zeigen, insbesondere auch mit dem Schwerpunkt "Webbrowser/Rikaichamp". Such einfach nach "Japanisch OCR" und Du wirst eine Menge Angebote finden. Was mich betrifft, kenne ich OCR noch aus den späten 1980ern. Komplett mit Handscannern und ähnlichem Gefrett. Ich kann nur sagen, dass mir der OCR-Editor im Finereader locker "über 100€" wert ist.
Meine bisherige Vorgehensweise beschreibe ich auch hier:
http://www.harerod.de/nihongo/#DICT <- Im Endeffekt Handschrifterkennung vom Wacom Tablet im Google Translator und dann füttern dieser Daten in Rikaichamp oder jisho.org.
Das entscheidende an der hier vorgestellten OCR-Methode ist, dass ich mit verhältnismäßig geringem Aufwand, große Musterdatenengen mit recht guter Qualität für mein neuronales Netzwerk bekomme.
AwesomeSepp: "Dumme Frage deshalb: Wie gehst Du mit dieser hohen Fehlerquote um?"
Das ist keine dumme Frage. Japanisch Lernen ist für mich vor allem ein Hobby. Ich freue mich einfach, dass ich Fortschritte mache.
Ich fange jetzt nach fünf Jahren ernsthaften Lernens mit Krücken das Lesen von einfachen Büchern an (das vorgelegte Beispiel ist ein Fantasy Roman). Zum Vergleich - bei Englisch hat das bei mir keine drei Jahre gedauert, mit ungleich geringerem Lernaufwand.