@Makun
Bei Iso 8859-1 ist z.b. das ä E4 (also 11100100), das Problem ist dabei, dass es das in UTF-8 so nicht gibt. Nur Ascii-Buchstaben haben einen Byte, und die müssen eine 0 als erstes Bit haben. Alle die eine 1 am Anfang haben sind Zeichen mit mehreren Bytes. Dieses Byte wäre jetzt das Anfangsbyte von einem Zeichen, das 3 Byte einnimmt (das sind z.b. Kanji). Deswegen ist es vielleicth etwas schwierig, das durch suchen/ersetzen zu machen, weil dieses Byte soweit erstmal kein gültiges UTF-8-Byte ist, soweit ich weiß.
Es gibt da aber Programme, die das automatisch konvertieren. Unter Linux hab ich da recode (vielleicht gibts das auch beim mac), dem gibt man die Ursprungskodierung und die Zielkodierung und eine Datei, und dann wird das konvertiert.
Allerdings wüsste ich jetzt nicht, wie man das automatisch einbauen könnte. Kann man vielleicht die ganze Datenbank exportieren, verändern und wieder hochladen?
Der Befehl ist im Grunde ganz einfach:
recode latin1..u8 < eingabedatei > ausgabedatei
Kanji und so wären dann denke ich nicht betroffen, wenn man das konvertiert, weil die ja sowieso nicht in UTF-8 hier gespeichert werden
Edit: hab mir grade mal irgendeinen Forumseintrag auf der Festplatte gespeichert, die html-datei dann durch recode laufen lassen und dann wieder angezeigt. Ergebnis: Alles funktioniert (ich musste nur in Firefox die Kodierung einmal manuell auf UTF-8 umstellen, weil die in der HTML-Datei ja noch auf ISO-8859-1 steht). Auch Kanji gehen. Das hängt damit zusammen, weil ein Kanji halt nicht direkt in UTF-8 hier gespeichert werden kann, sondern das escaped werden muss. z.b. ist U+9F8D 龍 = & #40845; (zwischen & und # ist keine Lücke, aber musste ich jetzt machen, damit der das hier anzeigt). Und da das nur Ascii ist, wird das von einer Kodierung nicht betroffen.
Der Vorteil von UTF-8 ist dann auch noch, dass man bei Kanji viel platz sparen würde (gut, das würde wahrscheinlich durch den erhöhten Platzgebrauch der Umlaute dann wohl wieder zunichte gemacht werden...
). Dann braucht man für so ein Kanji nur noch 3 Byte, keine 8.
Aber ich hab mal gelesen, ein deutscher Text bläht sich durch UTF-8 um ca. 5% auf wegen den Umlauten. ich denke mal, das geht noch.
Das Problem ist imho nur, an die Rohdaten in der Datenbank heranzukommen. Die müsste man dann einmal alle konvertieren und dann noch die Kodierung des Forums einstellen, ich denke, dann geht das.
Mit Safari würden dann bei alten Posts die Kanji zwar auch nicht besser angezeigt, denke ich, aber zumindest bei neuen Posts nach der Umstellung ginge das dann, weil dann die Kanji direkt in UTF-8 gespeichert werden könnten. Aber viellecith gibts ja auch eine Möglichkeit, dieses &#-Dingsbums automatisch in richtiges UTF-8 umzuwandeln.
@Zongoku
Nein, eigentlich hilft kein Zeichensatz außer Unicode. Die haben alle irgendwelche Probleme. Daher wurde ja Unicode entworfen. Ich finde es nur blöd, dass sich so viele Webseiten immer noch an ISO-8859-1 klammern. Das hat wirklich nur Nachteile. jeder Webbrowser unterstützt Unicode. Gibt eigentlich keinen Grund, das nicht zu benutzen.