EDIT: Jetzt wo ich den Thread noch mal lese, fällt mir auf, dass der Fokus hier ja wirklich auf dem automatischen Finden einer Übersetzung liegt... Wer sich für morphologische Analyse interessiert, oder sich selbst so einen Generator bauen will, kann hoffentlich trotzdem etwas mit meinem Beitrag anfangen.
Solche Programme, die Texte analysieren (und dann zum Beispiel Wortarten zuordnen und die Struktur des Satzes bestimmen) heißen Parser. Für das Japanische gibt es da zum Beispiel die Programme
chasen und
mecab. Ich selbst nutze Letzteres.
mecab nimmt einen Text als Eingabe und liefert u.a. Lesung, Wortart und Grundform der Wörter dieses Textes.
Das sieht dann zum Beispiel so aus (das Programm hat keine grafische Oberfläche):
Code:
$ mecab nihongo.txt
形態素 名詞,一般,*,*,*,*,形態素,ケイタイソ,ケイタイソ
解析 名詞,サ変接続,*,*,*,*,解析,カイセキ,カイセキ
が 助詞,格助詞,一般,*,*,*,が,ガ,ガ
大好き 名詞,形容動詞語幹,*,*,*,*,大好き,ダイスキ,ダイスキ
です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
EOS
Hier sieht man zum Beispiel die Wortart (zweites von links), die Lesung (erstes von rechts) und die Grundform (drittes von rechts).
Nur die Aussprache:
Code:
$ mecab -Oyomi nihongo.txt
ケイタイソカイセキガダイスキデス
Nur die einzelnen Wörter:
Code:
$ mecab -Owakati nihongo.txt
形態素 解析 が 大好き です
Mecab bietet außerdem die Möglichkeit, mehrere Lesarten der selben Eingabe anzuzeigen.