Ich habe 2006 zwei Programme verglichen:
1. ReadIris für westliches Windows mit Asian Add On (nutze ich heute noch) und
2. 読んde!!ココ von AIsoft für japanisches Win XP.
Readiris
------------
Ich habe damals "Readiris Pro 10 Asian" über die Belgische Niederlassung für ca. 180 Euro gekauft (Download und Lizenzschlüssel per E-Mail). Auf
http://www.irislink.com findet man mehr Details
Das Asian Add on erweitert die Software um 4 zusätzliche asiatische Sprachen für die Erkennung: Japanisch, Traditionelles Chinesisch, Vereinfachtes Chinesisch und Koreanisch.
Man konnte damals die Version 11 dort auch als Demo runterladen und ausprobieren. Ich habe in Version 11 gegenüber Version 10 in der japanischen Zeichenerkennung allerdings keinerlei Verbesserung in Qualität oder Geschwindigkeit erlebt. Bis heute bekomme ich keine Antwort auf meine Frage, was sich dort die letzte Zeit verbessert hat. Die aktuelle Version ist das "Asian OCR Add-on for IRISPowerscan™ 9"
Yonde
---------
Ich verwendete die Yonde-Version 13, die sich bis heute offensichtlich nicht erweitert hat.
Test
------
Ich habe einen kurzen Test durchgeführt. Bei diesem Test habe ich die gleichen 4 Textseiten mit insgesamt 2.750 Zeichen mit jeweils gleichen Parametern eingescannt und mit einem Text-Diff-Programm verglichen.
Als Scanner verwende ich den Epson Perfection 4990, der für eine Buch-Doppelseite einlesen ca. 14 Sekunden brauchte und für die Doppelseite Erkennung mit ReadIris ca. 0,5 Sekunden mit einem 3,2 GHz-PC.
Ergebnis:
Beide Programme ermöglichen relativ zügiges Wandeln von japanischen Textseiten - z.B. aus einem Buch - in verschiedene Formate, z.B. plain Text oder MS Word. Dabei traten deutlich unterschiedliche Fehlerraten auf.
ReadIris: 36 Fehler
Yonde: 8 Fehler
Allerdings hat sich Yonde manchmal ziemlich deutlich vertan, z.B. hat es ま zu einem 虻 gemacht (siehe pdf unten, rechts sind 8 von den roten Markierungen die yonde-Fehler, leider nicht anders markiert). Das alles ist bei nur einem Test noch nicht sehr aussagekräftig, zeigt aber doch eine Tendenz.
Das Arbeiten mit ReadIris ist zügig, es erkennt Textblöcke und Text-Layout, wobei mich immer nur der reine Text interessiert. Grafiken werden richtig ausgeblendet, Seitenzahlen leider nicht. Ich wünschte mir eigentlich einen fixen Rahmen immer gleicher Größe, in dem ReadIris ausschließlich Texterkennung durchführt. Gibts aber nicht.
Wenn man alle erkannten Rahmen geprüft hat, sind 45 Sekunden für 100 Doppelseiten zwar beeindruckend, aber die Fehler...
Es gibt auch eine Texterkennung auf Fotos, die ich auf Wunsch gerne mal ausprobieren kann.
Ich kenne keine OCR-Software, die nicht deutliche Nacharbeiten erfordert. Im März diesen Jahres habe ich bei Yodobashi nach der besten und neuesten Software gefragt und es war Yonde Version 13. Scheinbar ist das kein Markt in Japan.