(07.03.15 10:39)Mayavulkan schrieb: da muss man zwischen einer rein technischen Frage und den Eigenschaften der Software unterscheiden.
Rein technische scanne ich bei mir alles in 1200 dpi, ggf. sogar in 2400 dpi ein. Letzteres erfordert einen Scanner, an den ich halt nur gelegentlich herankomme. Man muss dazu sagen, dass Speicherplatz bei mir kein Diskussionsthema ist, die unkomprimierten Dateien werden wirklich seeeehr gross.
Die OCR-Software ist durchaus mäkeliger. Acrobat rechnet auf alle Fälle auf 600 dpi zurück (oder weniger), egal in welcher Auflösung das PDF zuvor erzeugt wurde. Und Omnipage fängt über 600 dpi (oder gar 300, bin jetzt nicht sicher) erst gar nicht an.
Hallo rhaessner, vielen Dank für die interessanten Hinweise und Erklärungen!
Technisch möchte ich wegen der Dateigröße am unteren oder mittleren Bedarf scannen, weil die Scans per Email vom Scanner "nach Hause" geschickt werden. Mein Privatscanner schafft zwar hohe Auflösungen auch, ist aber zu langsam - umso mehr bei hohen Auflösungen - und hat eine unpraktisch kleine Auflagefläche (kaum > DIN A4). Deswegen scanne ich meist an einem großen Ricoh-Scanner, gleich in PDF. Bei lateinscher Schrift meist mit 300 dpi, manchmal mit 400 dpi.
(07.03.15 10:39)Mayavulkan schrieb: Die OCR-Software ist durchaus mäkeliger. Acrobat rechnet auf alle Fälle auf 600 dpi zurück (oder weniger), egal in welcher Auflösung das PDF zuvor erzeugt wurde. Und Omnipage fängt über 600 dpi (oder gar 300, bin jetzt nicht sicher) erst gar nicht an.
Ich habe bisher nur Erfahrung mit lateinischer Schrift, aber das Herunterrechnen bei Acrobat erfolgt ja offenbar nach der OCR und ist mir prinzipiell willkommen, damit die Datei nicht zu groß bleibt. Oft speichere ich nachträglich noch als "optimiertes PDF", um noch weiter Platz zu sparen. Das Prinzip von Adobe, die Texterkennung sozusagen "über" das Bild zu legen, gefällt mir auch sehr gut. Man kann zwar die OCR-Fehler so schlecht oder nicht erkennen, aber im Falle einer gelungenen Texterkennung ist dafür der Arbeitskomfort recht hoch, wenn man die Originalversion als Bild vor sich sehen will (und das möchte ich).
Omnipage hatte ich in älterer Version längere Zeit auch in Gebrauch, damals nur Textdateien auswerfend. Bei der Unibibliothek finde ich es manchmal gruselig, dass mir zwar ein PDF mit Bilddatei erzeugt wird, die Texterkennung den Text aber tatsächlich simuliert (also kein "Foto" des Originals abbildet). So erscheinen mir dann Texterkennungsfehler als vermeintliches Original. Mir gefällt der Ansatz von Acrobat wie gesagt schon ganz gut, auch wenn ich dort die OCR-Fehler nicht gleich sehen kann. Wie gesagt, alles bisher auf lateinische Schrift bezogen.
(07.03.15 10:39)Mayavulkan schrieb: Kritisch ist bei beiden Programmen die Ausrichtung. Beide Programme versuchen das zwar selbst, aber speziell bei Furigana lässt sich Acrobat schon einmal irritieren. Und dann wird halt erst eine halbe Zeile von oben her in Text verwandelt, dann kommen die Furigana, dann der Rest der Zeile, was dann natürlich Tohuwabohu ergibt. Desderwegen richte ich meinen Text vorher mit einem matlab-Skript aus und lasse Acrobat da nicht ran. Dann gehts ganz gut.
Oh, das hört sich kompliziert an. Dann mache ich doch am Besten erst einmal Tests und warte mit dem generellen Einscannen noch weiter. Es scheint doch etwas schwieriger zu werden. Und ich möchte die Scannarbeit später nicht wiederholen müssen, weil ich im Nachhinein bemerke, dass ich besser anders hätte vorgehen sollen.