(23.10.22 19:21)harerod schrieb: Nun bräuchte man eine Regel, welche die Lesung in der Position des Kanji mit der Ziellösung vergleicht und filtert.
Genau das ist ja das Problem. Solange das gesuchte Kanji am Wortanfang oder -ende steht, ist das ja noch einfach, aber wenn es mitten im Wort ist, wäre es (gerade bei der Lesung い) ja hilfreich zu wissen, was man außenrum "ausschließen kann". Sonst läuft es ja auf sowas wie
Lesung: .*い.*
Kanji-Schreibung: .*出.*
hinaus, was einen Haufen False-Positives generieren würde.
Und an so Ausnahmen wie 伊右衛門 (いえもん) will ich gar nicht erst denken
Ich bin gerade dabei, mir entsprechende Datenstrukturen zusammenzustellen. Mal schauen, wie weit ich heute Abend noch komme. Das ist auf jeden Fall ein interessantes Projekt, das mir schon immer im Kopf rumgeschwebt ist, insofern danke für den Motivationskick.
Kurzes Zwischenergebnis aus der Datenvorverarbeitungsphase:
Mit relativ trivialen Regexes kann man die Kandidaten schon mal von ca. 550 auf 350 runterfiltern. Sucht man z.B. nach Allem, das als Lesung mit い und als Kanji-Schreibung mit 出 anfängt, trifft man schon auf einige interessante Wörter:
Code:
いず 出づ
いずし 出石
いずしじんじゃ 出石神社
いずしやき 出石焼
いずみ 出水
いずみし 出水市
いずもおおやしろきょう 出雲大社教
いずもかぐら 出雲神楽
いずもぐつわ 出雲轡
いずもごと 出雲琴
いずもざき 出雲崎
いずもし 出雲市
いずもたいしゃ 出雲大社
いずもでら 出雲寺
いずものおくに 出雲阿国
いずものかみ 出雲の神
いずものくにふどき 出雲国風土記
いずもぶし 出雲節
いずもへいや 出雲平野
いずもやき 出雲焼
いだしあこめ 出衵
いだしうちき 出袿
いだしぎぬ 出衣
いだしぐるま 出車
いだしたつ 出だし立つ
いだしづま 出褄
いだしふづくえ 出文机
いだしふみだな 出文棚
いだす 出だす
いであう 出で逢ふ,出で会ふ
いでい 出居
いでいのざ 出居の座
いでいり 出で入り
いでいる 出で入る
いでいる 出で居る
いでかてに 出でかてに
いでぎえ 出で消え
いでく 出で来
いでしお 出で潮
いでたち 出で立ち
いでたちいそぎ 出で立ち急ぎ
いでたつ 出で立つ
いでばえ 出で栄え,出で映え
いでまし 出で座し
いでまじらう 出で交じらふ
いでます 出で座す
いでみのはま 出見浜
いでむかう 出で向かふ
いでゆ 出で湯
いでわ 出羽
いずしえいらくかん 出石永楽館
いずもしんわ 出雲神話
いずもえんむすびくうこう 出雲縁結び空港
いずもくうこう 出雲空港
いずものおくに 出雲の阿国
いずものくに 出雲国
(Datenquelle: 大辞泉)