RE: MeCab - Morphologisches Analysetool
(02.03.16 23:35)vdrummer schrieb: Output von mecab
Das Standard-Ausgabeformat von mecab sieht wie folgt aus:
Wort [Tab] Liste mit Eigenschaften (durch Kommas getrennt)
Die Eigenschaften sind wie folgt:
Wortart,
genauere Wortart 1,
genauere Wortart 2,
genauere Wortart 3,
…
Diese Wortart-Angaben sind anscheinend eine vom verwendeten Wörterbuch festgelegte fixe hierarchische Kombination. Beim ipac-Wörterbuch sind die möglichen Kombinationen (bei einer Standardinstallation) in der Datei /usr/local/lib/mecab/dic/ipadic/pos-id.def festgelegt. Die Datei ist in euc kodiert. Fogende Kombinationen werden verwendet:
Code:
その他,間投,*,* 0
フィラー,*,*,* 1
感動詞,*,*,* 2
記号,アルファベット,*,* 3
記号,一般,*,* 4
記号,括弧開,*,* 5
記号,括弧閉,*,* 6
記号,句点,*,* 7
記号,空白,*,* 8
記号,読点,*,* 9
形容詞,自立,*,* 10
形容詞,接尾,*,* 11
形容詞,非自立,*,* 12
助詞,格助詞,一般,* 13
助詞,格助詞,引用,* 14
助詞,格助詞,連語,* 15
助詞,係助詞,*,* 16
助詞,終助詞,*,* 17
助詞,接続助詞,*,* 18
助詞,特殊,*,* 19
助詞,副詞化,*,* 20
助詞,副助詞,*,* 21
助詞,副助詞/並立助詞/終助詞,*,* 22
助詞,並立助詞,*,* 23
助詞,連体化,*,* 24
助動詞,*,*,* 25
接続詞,*,*,* 26
接頭詞,形容詞接続,*,* 27
接頭詞,数接続,*,* 28
接頭詞,動詞接続,*,* 29
接頭詞,名詞接続,*,* 30
動詞,自立,*,* 31
動詞,接尾,*,* 32
動詞,非自立,*,* 33
副詞,一般,*,* 34
副詞,助詞類接続,*,* 35
名詞,サ変接続,*,* 36
名詞,ナイ形容詞語幹,*,* 37
名詞,一般,*,* 38
名詞,引用文字列,*,* 39
名詞,形容動詞語幹,*,* 40
名詞,固有名詞,一般,* 41
名詞,固有名詞,人名,一般 42
名詞,固有名詞,人名,姓 43
名詞,固有名詞,人名,名 44
名詞,固有名詞,組織,* 45
名詞,固有名詞,地域,一般 46
名詞,固有名詞,地域,国 47
名詞,数,*,* 48
名詞,接続詞的,*,* 49
名詞,接尾,サ変接続,* 50
名詞,接尾,一般,* 51
名詞,接尾,形容動詞語幹,* 52
名詞,接尾,助数詞,* 53
名詞,接尾,助動詞語幹,* 54
名詞,接尾,人名,* 55
名詞,接尾,地域,* 56
名詞,接尾,特殊,* 57
名詞,接尾,副詞可能,* 58
名詞,代名詞,一般,* 59
名詞,代名詞,縮約,* 60
名詞,動詞非自立的,*,* 61
名詞,特殊,助動詞語幹,* 62
名詞,非自立,一般,* 63
名詞,非自立,形容動詞語幹,* 64
名詞,非自立,助動詞語幹,* 65
名詞,非自立,副詞可能,* 66
名詞,副詞可能,*,* 67
連体詞,*,*,* 68
Ich hab's nicht ausprobiert, aber ich könnte mir vorstellen, daß man mit Hilfe dieser Datei die Ausgabe von mecab auch auf Deutsch lokalisieren könnte…
PS: @vdrummer Es heißt 'Kommata', nicht ' Kommas'…
(12.03.16 12:03)vdrummer schrieb: Werde das gleich mal verlinken.
Wie ich gesehen habe, hast Du das nicht nur verlinkt, sondern gleich den ganzen Installationsteil im Eröffnungspost umgeschrieben. Toll.
Nur der Teil 'Könnte problematisch unter Mac OS X sein' finde ich so in der jetzigen Form etwas befremdlich. Eine normale Standardinstallation bereitet für das Komandozeilenprogramm keine Probleme. Das ist eher ein Spezialfall für Programmierer. "Stell sicher, daß Du nicht in /usr/lib installierst!", aber das hat sich unter dem angesprochenen Personenkreis auf OS X schon rumgesprochen.
(12.03.16 12:03)vdrummer schrieb: Da nutzt mal jahrelang Japanisch auf dem Mac und merkt nie was davon
Auf einem OS X 10.6-Rechner konnte ich die mecab-Bibliothek, eine mecabrc und sogar die Manpage der mecab-Binary finden, aber von der Binary selbst fehlt jede Spur. Schade eigentlich; die hätten sie ja ruhig gleich dazu packen können.
Unter 10.8 habe ich gar nichts in Richtung mecab gefunden. Unter welchem System hast du das denn gefunden, torquato? 10.10?
Ja, ich laufe auf 10.10.
Jemand auf GitHub hat die SDKs aller OS X Versionen hochgeladen https://github.com/phracker/MacOSX-SDKs
Demzufolge gibt es die libmecab seit 10.5 auf dem System und die zugehörige Headerdatei, aus der auch Apples 'Anpassungen' hervorgehen, war bis 10.7 dabei.
Diese SDKs sind seit einiger Zeit nicht mehr komplett statisch im System, sondern teils im Bereich der Compilertools (Xcode) angesiedelt. Apple ist da im Vergleich zu anderen *nixes etwas merkwürdig… Dein OS X 10.8 Befund und mein System kann also auch einfach nur etwas mit Xcode, etc. zu tun haben.
Ich bastel bei mecab gerade spaßeshalber an einer Anbindung an Apples neuer Programmiersprache Swift rum. Deshalb der etwas technisch basierte Ansatz. Klappt in Grundzügen soweit auch ganz OK. Das werde ich aber wahrscheinlich genauso wenig fertigstellen, wie die anderen drei Japanischen Software-Kleinprojekte, die ich hier noch rumliegen habe...
Das B in Rassismus steht für Bildung.
(Dieser Beitrag wurde zuletzt bearbeitet: 15.03.16 07:51 von torquato.)
|