tc1970
Beiträge: 216
|
Beitrag #1
Satz-Datenbanken: Tanaka Corpus und Tatoeba.org
(Dieser Beitrag wurde zuletzt bearbeitet: 23.09.12 14:51 von tc1970.)
|
|
09.09.12 15:21 |
|
tc1970
Beiträge: 216
|
Beitrag #2
RE: Tanaka Corpus und Tatoeba.org
Über den Tanaka-Corpus bin ich zu http://www.tatoeba.org gestossen.
Das ist eine Webseite, wo man erst die Sprachrichtung wählt und sich dann Sätze zu einer Vokabel anzeigen lässt. Es gibt es ganz viele Sätze Deutsch-Japanisch.
Alle Sätze kann man auch als csv-Datei downloaden.
Ich habe aber noch nicht herausgefunden, wie ich aus der csv-Datei nur die Sprachrichtung Deutsch-Japanisch herausfiltern kann.
Es wäre toll, tausende von Sätze in Anki zu importieren und dann die sprachliche Ausdrucksfähigkeit im Japanischen zu üben.
(Dieser Beitrag wurde zuletzt bearbeitet: 23.09.12 14:52 von tc1970.)
|
|
23.09.12 14:41 |
|
frostschutz
Technik
Beiträge: 1.783
|
Beitrag #3
RE: Satz-Datenbanken: Tanaka Corpus und Tatoeba.org
Geht nicht direkt da das erstmal eine Datenbank ist wo man erst die Relation auflösen muss um die passenden Satzpaare (japanisch, deutsch) zu finden.
Man kann dort aber (wenn man registriert ist) eine Liste erstellen und diese dann mit Übersetzung downloaden (angeblich, hab ich nicht ausprobiert).
Hier hat jemand was geschrieben http://a4esl.com/temporary/tatoeba/anki/ aber das sind nur Dateien für Englisch. Vergleichbares müsste man auch für Deutsch machen. Man kann den Autor auf tatoeba anschreiben, vielleicht kann er sein Script ja auch einfach auf Anfrage für jpn-deu anwerfen?
Lernen ist wie Rudern gegen den Strom. Sobald man aufhört, treibt man zurück.
|
|
23.09.12 19:55 |
|
frostschutz
Technik
Beiträge: 1.783
|
Beitrag #4
RE: Satz-Datenbanken: Tanaka Corpus und Tatoeba.org
Oder selbst gemacht mit SQLite3. Zunächst sentences und links aus csv in Tabellen importieren.
Dann dieses Query:
Code:
SELECT c.text,a.text FROM sentences a LEFT JOIN links b ON a.id=b.sentence_id LEFT JOIN sentences c ON c.id=b.translation_id WHERE a.lang='deu' AND c.lang='jpn' GROUP BY a.id;
Liefert Übersetzungspaare Japanisch<->Deutsch. Qualität ist eine andere Frage.
Allerdings komme ich da nur auf 1490 Sätze. Insgesamt sind in der Datenbank 73525 deutsche und 10002 japanische Sätze, daß davon nur 1490 gepaart sein sollen ist etwas dürftig. Bei Englisch statt Deutsch komme ich immerhin auf 5745 Paare.
EDIT: Wegen einem Datenbank-Import-Fehler war die Liste unvollständig...
Lernen ist wie Rudern gegen den Strom. Sobald man aufhört, treibt man zurück.
(Dieser Beitrag wurde zuletzt bearbeitet: 25.09.12 17:43 von frostschutz.)
|
|
23.09.12 21:10 |
|
Hellstorm
Beiträge: 3.925
|
Beitrag #5
RE: Satz-Datenbanken: Tanaka Corpus und Tatoeba.org
Ich kann mir aber irgendwie nicht ganz vorstellen, dass die Qualität da so gut sein kann.
Nehmen wir mal an, wir haben den simplen Satz
お名前は何ですか。 auf Japanisch
Dann wird der vielleicht auf Englisch als „What is your name?“ übersetzt.
Ich glaube aber kaum, dass der jetzt direkt von Japanisch auf Deutsch übersetzt wird, sondern wahrscheinlich fast immer nur Englisch übersetzt wird. Und dann könnte sein, dass der Satz als „Wie heißt du?“ übersetzt wird, was dann natürlich von der Richtung Engl->Deutsch richtig ist, aber von Japanisch->Deutsch nicht wirklich.
Ich könnt mir schon vorstellen, dass das Problem öfters auftritt.
やられてなくてもやり返す!八つ当たりだ!
|
|
23.09.12 21:26 |
|
frostschutz
Technik
Beiträge: 1.783
|
Beitrag #6
RE: Satz-Datenbanken: Tanaka Corpus und Tatoeba.org
Meine Methode ist leider nicht wirklich perfekt, es sind auch ein paar doppelte Übersetzungsvorschläge drinnen.
Kann auch gut sein daß ich allgemein irgendwo einen Fehler gemacht habe, die vorher gepostete Seite hat 18000 Sätze in seiner jpn-eng Datei. Da ich nur auf 5000 komme ist da vielleicht irgendwo was verschütt gegangen.
EDIT: Ah, sqlite3 hat nur einen Teil der Sätze-Datenbank importiert bei mir und keine Fehlermeldung ausgegeben. Ich muss mir das ein andermal nochmal anschauen, keine Lust mehr heute...
Lernen ist wie Rudern gegen den Strom. Sobald man aufhört, treibt man zurück.
(Dieser Beitrag wurde zuletzt bearbeitet: 23.09.12 22:02 von frostschutz.)
|
|
23.09.12 21:53 |
|
moustique
Beiträge: 1.811
|
Beitrag #7
RE: Satz-Datenbanken: Tanaka Corpus und Tatoeba.org
|
|
24.09.12 00:05 |
|
frostschutz
Technik
Beiträge: 1.783
|
|
25.09.12 17:48 |
|
FelixH
Beiträge: 29
|
RE: Satz-Datenbanken: Tanaka Corpus und Tatoeba.org
wow!
Das ist ja mal gigantisch! Danke dir.
|
|
29.10.18 15:15 |
|