Ich konnte es mir natürlich nicht nehmen lassen, das Ganze maschinell anzugehen.
Da der Prozess an sich auch ziemlich interessant war und es hier im Forum einige User gibt, die selbst programmieren, gehe ich am Ende nochmal ein bisschen ins Detail. Hier aber erstmal meine Liste:
Code:
人 -> 从
刀 -> 刕
力 -> 劦
厶 -> 厸
厶 -> 厽
又 -> 叒
土 -> 圭
土 -> 垚
夕 -> 多
大 -> 夶
女 -> 奻
女 -> 姦
子 -> 孖
子 -> 孨
干 -> 幵
弓 -> 弜
心 -> 惢
戈 -> 戔
斤 -> 斦
日 -> 昌
日 -> 晶
月 -> 朋
木 -> 林
木 -> 森
止 -> 歮
毛 -> 毳
水 -> 淼
火 -> 炎
火 -> 焱
火 -> 燚
牛 -> 犇
田 -> 畾
立 -> 竝
耳 -> 聶
虫 -> 蟲
言 -> 誩
言 -> 譶
豕 -> 豩
車 -> 轟
金 -> 鑫
馬 -> 騳
(Die Liste kann man scrollen; insgesamt gibt es 41 Einträge)
Jetzt zum Vorgehen. Ich hatte noch im Kopf, dass Jim Breen eine Datei hat, die Kanji in ihre Bestandteile zerlegt (jisho.org und taigainijisho benutzen sowas ja zum Beispiel). Erst dachte ich, das sei KANJIDIC gewesen, aber da stehen nur Lesungen, Radikale, Bedeutungen etc. aber keine Bestandteile drin. Die gesuchte Datei war letztendlich KRADFILE:
http://www.edrdg.org/krad/kradinf.html
(Ab hier wird es technisch; wer sich nicht für Character-Encodings und Regular Expressions interessiert, kann hier aufhören zu lesen
)
Da diese in JP-EUC konvertiert war, musste man sie also erstmal nach UTF-8 konvertieren, um sie gescheit darstellen zu können (unter Linux zum Beispiel mit iconv).
Hat man das geschafft, sieht ein Eintrag dann zum Beispiel so aus:
Man hat also das Ausgangskanji, einen Doppelpunkt und eine space-separated Liste der Komponenten.
Bei 轟 sieht das allerdings so aus:
Es ist also eher eine Menge statt einer Liste von Komponenten, was die Suche nach "Mehrfachkanji" etwas erschwert.
Dazu kommt noch, dass es Einträge wie den folgenden gibt:
Die gesuchten Kanji zu matchen dürfte also nicht ganz trivial werden.
Da aber im gesuchten Fall das linke Kanji nicht dem rechten entspricht (und es exakt ein rechtes gibt), bin ich auf folgenden regulären Ausdruck gekommen (BRE, wie in grep etc.):
Der liefert uns interessanterweise aber auch so Einträge wie 川 weiter oben. Erst dachte ich, das seien vielleicht unterschiedliche Zeichen, die fast gleich aussehen, aber, wenn man sich das Ganze mal im Hex-Viewer anschaut, merkt man, dass das ein und dasselbe Zeichen ist:
Code:
00000000: e5b7 9d20 3a20 e5b7 9d0a ... : ....
Ich vermute mal, dass Tools wie grep einfach Probleme mit Multi-Byte-Zeichen haben.
Da damit unter 200 Ergebnisse rauskamen, bin ich das Ganze von Hand durchgegangen und habe die irrelevanten Einträge gelöscht.
Edit: fehlerhaften Eintrag entfernt.
Edit: überflüssige Zeichen in Link entfernt