(28.08.15 13:33)Hellstorm schrieb: Man könnte ja mal die Untertitel eines Filmes analysieren.
Japanische Untertitel eines Spielfilmes habe ich gerade nicht zur Hand, aber ich habe mal die Untertitel einer kompletten Slice-Of-Life-Animeserie durch mecab gejagt.
Das Ergebnis wird vielleicht nicht unbedingt repräsentativ sein, aber ich veröffentliche es trotzdem mal:
Wörter insgesamt: 24.410
Davon Katakana-Wörter: 738
Relativer Katakana-Wort-Anteil: ca. 3%
Wörter sind für mecab übrigens auch Sachen wie ます、ない、た oder て, wodurch der Anteil der Nicht-Katakana-Wörter natürlich höher wird...
So ganz ausgereift ist das Ganze noch nicht...
Deshalb mal nur die Substantive:
Substantive insgesamt: 7909
Davon Katakana-Wörter: 736
Relativer Katakana-Wort-Anteil: ca. 9,3%
Das erscheint mir schon realistischer.
Hier noch ein ganzer Roman:
Substantive insgesamt: 24.976
Davon Katakana-Wörter: 1858
Relativer Katakana-Wort-Anteil: ca. 7,4%