Beitrag #2
RE: PDF 2 HTML Konverter
Hmmm. Mit viel Glück kannst du den Text extrahieren - wenn er im PDF als Text gespeichert ist und nicht etwa die Schriften derart eingebettet sind, daß nur mehr die Vektorgrafik, die den Text ausmacht, vorhanden ist. Das ist recht einfach rauszufinden, mit letzterer Variante gespeicherter Text wird dann nämlich auch von der Textsuche nicht gefunden.
Es ist technisch nicht möglich, PDF nach HTML zu konvertieren. PDF ist eine Mischung von Text, Vektor-Grafiken und Bildern; der Text ist nicht formatiert, sondern absolut positioniert, d.h. wenn du eine Tabelle hast, dann ist das keine Tabelle mehr im Sinne von table-tr-td, sondern es sind Text-Schnipsel zwischen denen hindurch halt zufällig auch Striche gezeichnet sind. Das gleiche Problem hast du auch schon bei viel banaleren Formatierungen, z.B. wo Abschnitte gesetzt wurden usw.
HTML ist logische Formatierung von Text, und damit dynamisch, eine HTML -Seite kann damit in jedem Browser anders aussehen, allein dadurch daß der Inhalt in die Größe des jeweiligen Browserfensters so wie es gerade passt gequetscht wird.
Bei PDF dagegen wird der Inhalt statisch fest auf eine Seite fester Größe gebrannt - es *soll* bei jedem *exakt* identisch aussehen und nicht auf jedem Drucker anders. Die ursprüngliche logische Formatierung des im PDF dargestellten Textes merkt sich das PDF daher nicht.
Daher werden die meisten PDF nach HTML Konvertierer, die du finden wirst, wahrscheinlich einfach nur von jeder Seite ein Bild anfertigen und diese Bilder dann im HTML einbinden.
Fazit, du bekommst - wenn überhaupt - nur den Text praktisch ohne Formatierung, und dafür brauchst keinen Konverter, sondern das Text select Tool im Acrobat Reader, mit dem du das Wort einfach per Copy&Paste rauskopieren kannst. Und wenn das auch nicht funktioniert, dann geht da eigentlich nichts mehr - das ist dann ein Fall für die OCR.
Lernen ist wie Rudern gegen den Strom. Sobald man aufhört, treibt man zurück.
|