(10.07.18 14:00)torquato schrieb: Klar, iconv. Einmal Tante Google fragen und dann bin ich vorhin auch selbst drauf gekommen. Hatte ich nur sonst noch nie benutzt. Damit habe ich es anstandslos von normalem EUC-JP nach UTF8 konvertiert bekommen. Komisch, laut iconv -l kennt er bei mir EUC-JP-MS aber auch gar nicht…
Bei wordfreq_ck hat mir iconv mit EUC-JP zwar einen Fehler ausgeworfen, aber das Ergebnis sieht akzeptabel aus. Bei EUC-JP-MS gibt's diesen Fehler nicht...
Komisch, bei mir gibt's das...
Code:
$ iconv -l | grep EUC
CSEUCKR//
CSEUCPKDFMTJAPANESE//
EUC-CN//
EUC-JISX0213//
EUC-JP-MS//
EUC-JP//
EUC-KR//
EUC-TW//
EUCCN//
EUCJP-MS//
EUCJP-OPEN//
EUCJP-WIN//
EUCJP//
EUCKR//
EUCTW//
Und wordfreq wirft bei mir sowohl bei EUC-JP als auch bei EUC-JP-MS einen Fehler aus.
Hier mal die MD5 meiner (unmodifizierten) wordfreq-Datei zum Vergleichen:
Code:
$ md5sum wordfreq
74c92cae87bb69b0a75046f04d4ee977
Zitat:Meine Dateien heißen wordfreq und word_freq_k. Ich beschäfftige mich mit der kompletten Datei, wobei ich auch da kanjilose Wörter rausfiltere. Ich bin aber der Meinung, eine wordfreq_ck auch schon mal gesehen zu haben… Da scheinen wohl auch noch unterschiedliche Fassungen im Umlauf zu sein…
Die wordfreq_ck hab ich von hier:
http://ftp.usf.edu/pub/ftp.monash.edu.au...freq_ck.gz
Aus den Kommentaren am Anfang:
Code:
# This is what I did [to the original file].
# The counts for the various forms of the same word were merged.
# Certain words/items were removed: numbers, English and romaji,
# punctuation, phrases ending in the particle "wo", lines beginning with
# "n" or the particle "wo."
# Then the file was sorted by "the count."
Zitat:Jetzt, wo ich wieder drann sitze, sehe ich, daß ich beim letzten Mal da einen Fehler beim Tokenizing gemacht habe. Den kann ich dann jetzt bei der Gelegenheit gleich ausbügeln. Also für mich wirklich prima, daß Du das Thema angesprochen hast!
Darf ich fragen, was es da noch großartig zu tokenisieren gab? Das sind doch schon einzelne Wörter und wo nötig steht sogar die Grundform dabei, wenn ich das richtig sehe:
Code:
$ grep "+.*+" wordfreq_utf8.tsv | shuf | head
育ん+育む+248 7
締め切り+締め切る+269 223
たれこめ+たれこめる+101 5
担っ+担う+349 566
割+割る+101 83
掘り崩さ+掘り崩す+187 3
押し倒し+押し倒す+193 21
好き好ん+好き好む+248 5
くっつけれ+くっつける+104 5
生じ+生じる+101 337
Edit: Der Grund, warum es vorhin bei mir nicht geklappt hat, war dass ich dachte, ich hätte die original wordfreq-Datei benutzt, dabei habe ich seit heute morgen wordfreq_ck verwendet.
@Frostschutz:
Vielleicht wäre es sinnvoll, unsere Diskussion über die wordfreq-Dateien in einen extra Thread auszulagern. Das hat ja nur noch bedingt mit dem Link-ABC zu tun.