Das ist echt interessant, sich das mal anzuschauen. Ich habe den FNN-Text (also den Gesetzestext) mal durch mecab gejagt und dabei explizit unbekannte Ausdrücke markieren lassen (by default werden die zu 名詞):
Code:
$ mecab -x UNK <<< "神武天皇即位紀元年数ノ...
神武 名詞,固有名詞,人名,一般,*,*,神武,ジンム,ジンム
天皇 名詞,一般,*,*,*,*,天皇,テンノウ,テンノー
即位 名詞,サ変接続,*,*,*,*,即位,ソクイ,ソクイ
紀元 名詞,一般,*,*,*,*,紀元,キゲン,キゲン
年数 名詞,一般,*,*,*,*,年数,ネンスウ,ネンスー
ノ 助詞,格助詞,一般,*,*,*,ノ,ノ,ノ
四 名詞,数,*,*,*,*,四,ヨン,ヨン
ヲ 助詞,格助詞,一般,*,*,*,ヲ,ヲ,ヲ
以 UNK
テ UNK
整除 名詞,サ変接続,*,*,*,*,整除,セイジョ,セイジョ
シ 名詞,一般,*,*,*,*,シ,シ,シ
得 名詞,一般,*,*,*,*,得,トク,トク
ヘキ UNK
年 名詞,接尾,一般,*,*,*,年,ネン,ネン
ヲ 助詞,格助詞,一般,*,*,*,ヲ,ヲ,ヲ
閏年 名詞,一般,*,*,*,*,閏年,ウルウドシ,ウルードシ
トス 名詞,サ変接続,*,*,*,*,トス,トス,トス
但 接続詞,*,*,*,*,*,但,タダシ,タダシ
シ 名詞,一般,*,*,*,*,シ,シ,シ
紀元 名詞,一般,*,*,*,*,紀元,キゲン,キゲン
年数 名詞,一般,*,*,*,*,年数,ネンスウ,ネンスー
ヨリ 名詞,固有名詞,一般,*,*,*,ヨリ,ヨリ,ヨリ
六 名詞,数,*,*,*,*,六,ロク,ロク
百 名詞,数,*,*,*,*,百,ヒャク,ヒャク
六 名詞,数,*,*,*,*,六,ロク,ロク
十 名詞,数,*,*,*,*,十,ジュウ,ジュー
ヲ 名詞,固有名詞,一般,*,*,*,ヲ,ヲ,オ
減 名詞,接尾,一般,*,*,*,減,ゲン,ゲン
シテ UNK
百 名詞,数,*,*,*,*,百,ヒャク,ヒャク
ヲ 助詞,格助詞,一般,*,*,*,ヲ,ヲ,ヲ
以 UNK
テ UNK
整除 名詞,サ変接続,*,*,*,*,整除,セイジョ,セイジョ
シ 名詞,一般,*,*,*,*,シ,シ,シ
得 名詞,一般,*,*,*,*,得,トク,トク
ヘキモノノ UNK
中 名詞,接尾,副詞可能,*,*,*,中,チュウ,チュー
更 名詞,形容動詞語幹,*,*,*,*,更,サラ,サラ
ニ UNK
四 名詞,数,*,*,*,*,四,ヨン,ヨン
ヲ 助詞,格助詞,一般,*,*,*,ヲ,ヲ,ヲ
以 UNK
テ UNK
商 名詞,接尾,一般,*,*,*,商,ショウ,ショー
ヲ 助詞,格助詞,一般,*,*,*,ヲ,ヲ,ヲ
整除 名詞,サ変接続,*,*,*,*,整除,セイジョ,セイジョ
シ 名詞,一般,*,*,*,*,シ,シ,シ
得 名詞,一般,*,*,*,*,得,トク,トク
サル 名詞,一般,*,*,*,*,サル,サル,サル
年 名詞,接尾,一般,*,*,*,年,ネン,ネン
ハ UNK
平年 名詞,副詞可能,*,*,*,*,平年,ヘイネン,ヘイネン
トス 名詞,サ変接続,*,*,*,*,トス,トス,トス
EOS
Man sieht, dass hier viele Katakana-"Ausdrücke" nicht erkannt werden, aber so ganz regelmäßig ist das nicht. ノwird als Partikel erkannt, ハ aber nicht... Interessant finde ich auch, dass das Programm bei 似テ komplett versagt.