Antwort schreiben 
Satz-Datenbanken: Tanaka Corpus und Tatoeba.org
Verfasser Nachricht
Phil.


Beiträge: 799
Beitrag #11
RE: Satz-Datenbanken: Tanaka Corpus und Tatoeba.org
Du hast aber nur eine Datei runtergeladen.
In den anderen steht noch mehr drin.

Ich arbeite alles ab und trage sie in die Datei ein.
Es ist ein Mammutwerk und hoffentlich kann es all jenen dienen, die eher auf Konversation stehen, als auf Rechtschreibung.
Manche Saetze sind zu kompliziert, dass ich sie aufnehmen kann.
An anderer Stelle, splitte ich diese ueberlangen Saetze.

Und alle Saetze, koennen sowohl von ihm und ihr und von allen Personen der Welt verwendet werden. Sofern das Alter es zulaesst.
Es gibt Stunden, wo ich 40 Saetze schaffe und andere wo es sogar 87 werden.
Interessant ist fuer mich jedenfalls die Feststellung, dass mein anderer Weg des Lernens, doch Fruechte getragen hat.
Und die Datei, dabei hilft, Kanji-Verbindungen richtig zu deuten.

All das waer weder mit Rikaichan noch mit einem WB moeglich gewesen.
Gut an diesen Saetzen ist jedoch, dass hier schon eine funktionierende deutsche Uebersetzung dabei steht.
Da braucht man vorerst nicht viel rumknobeln.

Und womoeglich ist dies dann das Sprungbrett zur Verwendung der Aozora Floskeln.
01.11.18 11:12
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
Portugiese


Beiträge: 46
Beitrag #12
RE: Satz-Datenbanken: Tanaka Corpus und Tatoeba.org
https://tatoeba.org/en/downloads

Ich greife diesen Beitrag noch einmal auf.
Es wurde zu Anfang bereits darueber gesprochen und die Datei ist seitdem um viele Saetze vergroessert worden.

Es wurden 2 downloads hier im Forum bereitgestellt.

Ich weiss nicht wieviele Japanisch-Deutsche Saetze jetzt da drin sind. Vor 2 Jahren um den September herum, konnte ich eine solche Datei runterladen und zwar von Portugiesisch-Englisch. Und die hatte damals schon 350.000 Datensaetze.

Leider waren viele davon ueberlang, somit ich mich mit 220.000 zufrieden gab.
Irgendwo in dieser Datei, hat dann einer geschrieben, ER haette den millionsten Satz bei Tatoeba eingetragen. Das ist schon mal enorm.

Natuerlich ist das Englische viel oefter uebersetzt, Aber wer Kenntnisse im Englischen hat, kann sich die Datei ja auch zurechtbiegen.

Es ist aber eine enorme Arbeit.
Dennoch vielleicht doch lehrreich um zu sehen, wie die Sprachen so funktionieren.
Aber Achtung! Auch Jim Breen hat sich mal ueber die Datei geaeussert, dass es viele Fehler in der Datei gibt und auch Uebersetzungsfehler.

Wie wahr! Da hier auch viel von Google uebersetzt wurde und ich in einem anderen Beitrag schrieb, dass man aus dem englischen "you" oft nicht schlau wird, was das "you" denn eigentlich bedeutet.

Doch dafuer steht ja auch der Originalsatz (vielleicht auch mit Fehlern) da.

Ich bin nun dabei die Datei vom (portugiesisch-) Englischen ins Deutsche zu uebersetzen.
Aber diese Datei kommt nicht ins tatoeba.org Programm zurueck.
Es wird bestimmt ein Jahr dauern, bis ich da durch bin. Hab ja sonst nichts zu tun.
Die Datei wuerde in der Deutsch-Japanischen Version auch nicht funktionieren.

Hatte das schon des oefteren hier im Forum vorgeschlagen, eine Datei sogar aus WB, zu erstellen. Leider wurde die Idee niemals aufgegriffen und in die Tat umgesetzt.

Ich war so ziemlich von Anfang dabei.
Gruendungsjahr des Forums, Gründungsjahr des Forums war am 29.10.02
Das sind ja schon ueber 21 Jahre her.
Wie die Zeit vergeht!

Wieviele Datensaetze haetten nur 10 Teilnehmer bei nur 100 Datensaetze pro Tag in eine Datei, seitdem einbinden koennen?
Es waeren ueber 8 Millionen gewesen. Und dies auf Deutsch und nicht auf Englisch uebersetzt.

Aber es ist nichts geschehen und somit gibt es keine solche Datei.
Schade.
16.02.24 11:16
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
Satz-Datenbanken: Tanaka Corpus und Tatoeba.org
Antwort schreiben 


Möglicherweise verwandte Themen...
Thema: Verfasser Antworten: Ansichten: Letzter Beitrag
Anki und Datenbanken moustique 4 3.130 12.09.14 07:48
Letzter Beitrag: Woa de Lodela