Da will ich mal antworten, was die Daten angeht.
An htm und html bin ich nicht interessiert.
Also habe ich nichts mit Tabs und sonstigem zu tun.
Ich hab also nun vor 2 Tagen ein Programm fertiggestellt.
Es faengst also mit einer Webseite an.
Und zwar heute mit dieser.
https://collocation.hyogen.info/word/%E6%89%8B/wo
Ich markiere den Text und kopiere diesen.
Dann oeffne ich zB Word. mit dem Windows XP.
Hier aendere ich erst mal alle Komma in Punkt.
Aber nicht den japanischen Punkt, sondern unseren.
Anschliessend ersetze ich alle (japanischen) Doppel-Leerzeichen mit ^p
Somit kommen diese Daten untereinander stehen.
Als naechstes lasse ich diese Daten durch den Unicode Konverter laufen.
https://r12a.github.io/app-conversion/
Aus Kanji und Kana wird dann ganz unten links, Unicode-Hex Zeichen.
Das ist meine Bruecke zum Internet.
Beispiel.
手をにぎりしめながらいった.
wird dann dies.
624B 3092 306B 304E 308A 3057 3081 306A 304C 3089 3044 3063 305F 002E
Das ist die einzige Form, wie mein Clipper Programm, Kanji aufnehmen kann.
Es gibt jedoch viele Ungereimtheiten, wie zB das Wiederholungszeichen, oder das kleine っ welches sowohl an Silben als auch an Kanji angehaengt wird.
Mit meinem Programm aendere ich dann mal folgendes.
Die Kanji werden aus dem Beispiel gefiltert.
Diese stehen dann separat bei den Kanji.
Als naechstes werden die Kanji als ! Zeichen markiert, auf dass mir keine Daten verloren gehen.
Dann kommt der naechste Schritt, wo die Silben Alphabete der Reihe nach durchsucht werden und in Romaji umgewandelt werden.
Auf folgendes musste ich aber acht geben.
Zuerst die grossen Silben konvertieren. Um hier wieder keinen Datenverlust zu erleiden.
きょう zB ist eine von diesen Silben.
Danach kommen kleinere wie きょ und dann き und zum Schluss die Ein-Buchstaben, あいうえお.
3063 ist das kleine っ. Es gibt mir hier die Info dass der naechste Buchstabe doppelt geschrieben werden muss.
Am Ende sehen die Daten dann so aus.
! O NI GI RI SHI ME NA GA RA I 3063 TA
Bei diesem Beispiel habe ich nur 手.
Also gehoert das erste ! zu 手.
nigiri hat aber ein Kanji. und shimeru auch sowie itta, von iku 行く.
So denn, dann geht meine Arbeit los.
Ich konvertiere das dann in mein Format.
te o nigirishime nagara itta
Und dann such ich die Uebersetzung dazu.
Also ob der Text so aussieht
手をにぎりしめながらいった.
oder so
! O NI GI RI SHI ME NA GA RA I 3063 TA
aendert nichts an der Tatsache, dass man raten muss, wie was gelesen wird.
Um dann Daten in einer WB zu suchen, muss man fuer Verben die Infinitiv Form wissen.