Wow, vielen herzlichen Dank, vdrummer,
Das ist enorm.
Ja sicher, damit kann ich was anfangen. Auch wenn es, wie du sagst, einiges in einer anderen Spalte zu finden ist. Oder ein Eintrag ist doppelt zu sehen. Dann kann das einiges bedeuten, dass der Begriff noch mit anderen Kanji geschrieben werden kann.
Und nun kann es weitergehen.
MIt einem Programm wie zB. macHacha, kann man uebergrosse Dateien, splitten. Dh. dass man diese Dateien in kleinere Formate unterteilen kann. Jedenfalls beim Mac funktioniert es.
Zuerst versuche ich die Datei ohne Datenverlust abzuspeichern.
Damit meine ich, wenn ich die Datei wieder oeffne, die Kanji immer noch vorhanden sind und kein Buchstabensalat angezeigt wird.
Abspeichern ist moeglich.
Neu laden von .txt sind die Kanji verschwunden.
Versuche die Datei mit Word ueber die .url zu laden, da hab ich das Gefuehl, als ob Word sich aufhaengt.
Jedenfalls dauert der Ladevorgang eine Ewigkeit.
20 MB ist ja auch eine ganze Menge Material. Ist dies die Ganze Datei?
Abspeichern mit .txt ok.
Dann diesen Anhaengsel in .html umbenennen.
Dann die Datei mit Firefox.app wieder oeffnen und die Kanji sind vorhanden.
Abermals abspeichern unter .html als Ganze Webseite und man kann die Datei mit Opera auch oeffnen.
Nur die Formattierung geht bei der Prozedur verloren.
Ein einheitliches Zeichen fuer Wagenruecklauf oder Ende des Datensatzes und Beginn des neuen Datensatzes ist hier nicht zu sehen.
Aber jetzt kann der Laie, der Student sich doch einiges ansehen und gegebenfalls, sich einige Dateien zusammenstellen. ZB fuer geraeuschwoerter. Der Link im A-Z ist nicht mehr aktuell. Die Seite gibt es nicht mehr.
Mit der Suche nach diesem Begriff, kann dann einjeder sich die Daten zusammensuchen.
on-mim
Ich habe deine Datei mit .csv gespeichert. Und dann mit Excel aufgemacht.
Bei 232.388 Zeilen wurde Excel ploetzlich unterbrochen. Die Formattierung des Textes ist vorhanden, die Kanji dagegen sind verschwunden. Ich hab dann nachgesehen was eigentlich passiert ist.
Ich nehme an, dass Excel ein End-of-file nicht gefunden hat.
Daher die Unterbrechung.
------
Ich speichere mal meine bisherige Arbeit und Untersuchung ab. Beim Experimentieren, koennte sich mein Firefox doch auch mal aufhaengen.
Dann waer alles fuer die Katz.
Ich hab aber bis jetzt schon einiges erfahren koennen. Es gibt noch viele Begriffe, die ich noch in keinem anderen Woerterbuch finden konnte. Das will schon was heissen.
Es gibt auch Webseiten wie goo oder Alc, welche verschiedene Begriffe nicht haben.
Die wwwjdic Webseite aus Australien ist womoeglich offline.
Es gibt eine Alternative dazu.
http://wwwjdic.biz/cgi-bin/wwwjdic?1E
Weblio 窃盗癖 wandelt diese Kanji sofort in die neuere Variante um.
窃盜癖|せっとうへき|(n,iK) (f) Kleptomanie
Da sieht man wie unterschiedlich doch verschiedene Woerterbuecher arbeiten.
Ich hatte lediglich folgende Begriffe dazu.
1 KLEPTOMANIE byootekisettoo // krimi 病的窃盗
2 KLEPTOMANIE dorobookonsei // krimi 泥棒根性
3 KLEPTOMANIE kaginote // krimi
4 KLEPTOMANIE tekuse // krimi 手癖
5 KLEPTOMANIE tenaga // krimi 手長
6 KLEPTOMANIE tooheki // med + 盗癖
Die Begriffe 窃盗癖 und 窃盜癖 hatte ich nicht. Bei fast einer Million, Da will schon was heissen.
Und ich frag mich dann doch eins, ob manche Woerterbuecher nicht einige Fehler haben?
泥棒根性,どろぼうこんじょう,diebische (f) Veranlagung