Da hatte ich gerade vor ein paar Tagen einen Beitrag begonnen.
Thread-Rikaichans-Pate-fuer-die-Deutsche-Datei?highlight=rikaichan
Und zwar, wer eigentlich Pate stand fuer die deutsche Version von Rikaichan bzw. dem edict.
Dank der Arbeit von vdrummer, konnten wir diese Datei oeffnen.
hier zu finden (~ 20 MB).
Diese Datei sollte fuer deinen Zweck, denke ich reichen.
Vorerst einmal, das ist schon mal sicher.
Jeder Eintrag hat zwischen 1 und mehreren Uebersetzungen.
Und sie sind noch mit (1) bis (xx) aufgefuehrt.
Nun in einem Stueck laesst sich diese Datei wohl nicht mehr in Word unterbringen.
Auch nicht bei Excel. Also erst mal runterladen und dann eventuell aufsplitten.
In dem besagten Beitrag habe ich auch erklaert wie ich selber vorgegangen bin.
Nun fuer meine Zwecke, da ich keine Kanji und Kana verwende, sondern nur ASCII also unsere Buchstaben, habe ich diese Datei aufgearbeitet. Erst mal habe ich sie in 8 Teilen abgespeichert.
Davon habe ich Teil1 und Teil2 bereits aufgearbeitet. Teil3 ist in Arbeit.
Was mich weniger interessiert sind die Privaten Daten von Herrn Ulrich Apel.
So auch ob das Wort ein Verb1 oder Verb5 ist oder adjektiv oder adverb.
Ein Begriff kann verschiedene Formen haben, kommt auf die Partikel an.
Alle Erklaerungen zu einem Begriff (die stehen in () Klammern, benoetige ich auch nicht.
Mein Datenfeld hat nur 50 Zeichen und daher ist dies sowieso nicht zu verwenden.
Es gibt noch einige Ueberbleibsel von der Edict Datei. Diese stehen in Englisch, haben noch keine Uebersetzung.
Es gibt auch verschiedene Schreibweisen zu manchen Begriffen. Mit und ohne Kanji.
Oder es fehlen Hoeflichkeits-Kanji oder der Autor wusste nicht welches Kanji hier verwendung findet. Dann wird dieser Teil in Kana geschrieben.
Auch gibt es einige die wohl Hiragana geschrieben werden, aber doch Katakana haben.
Katakana zB loesche ich.
Hiragana werden in Romaji transkribiert.
Der Teil wo Kanji sind, werden nur die Kanji behalten. Sonstige Schreibweisen werden geloescht.
So dass am Ende nur noch eine Schreibweise vorhanden ist.
1 ATOMKRAFTWERK genpatsu // nuklear 原発
2 ATOMKRAFTWERK genshiryokuhatsudensho // nuklear 原子力発電所
3 ATOMKRAFTWERK hatsudensho // nuklear 発電所
Die grossen Teile 1-8, um diese aufzuarbeiten, da benoetige ich in etwa 3 Tage dafuer.
Diese dann zu importieren in meine Datei mit ueberpruefung der Richtigkeit, da benoetige ich in etwa 1 Tag fuer 1.000 Neue Begriffe. Also Begriffe die so noch nicht in meiner Datei vorkommen.
Und wer meine Aussagen vorher gelesen hat, versteht auch, warum es soviele neue Begriffe sind, da der Autor darauf geachtet hat, moeglichst keine vorhandenen Woerterbuch Uebersetzungen zu verwenden.
Einige Such- und Vergleich-Algorithmen habe ich eingebaut um doppelte Eintraege zu vermeiden.
Aber das alles ist nun einmal Ansichtssache.
Wuerde mich interessieren, ob noch jemand etwas mit dieser Datei gemacht hat!
Woerterbuch Uebersetzungen nicht zu verwenden.
Und fuer Teil1 zB benoetigte ich 3 Tage.
Fuer Teil2 auch 3 Tage.
Das waren einige Fehler von mir.