Codepages

Wird ein Zeichensatz in einem einzigen Byte (8 Bit) gespeichert, lassen sich insgesamt 28 unterschiedliche Schriftzeichen (Ziffern, Buchstaben oder Satzzeichen) darstellen. In der Vergangenheit der EDV-Geschichte reichten diese 256 Zeichen vollkommen aus.

Mit der weltweit zunehmenden Verbreitung von Computern wurde es jedoch notwendig, weitere Sprachen unterstützen zu können, die zusätzlich zur lateinischen Schriftform andere Sonderzeichen bzw. akzentuierte Buchstaben verwenden.

Als Lösung boten sich hier sogenannte Codepages an, mit denen die Binärwerte von 32 bis 255 (0x20 bis 0xFF) auf den für die jeweilige Sprache benötigten Zeichensatz dargestellt werden konnten. Alle Windows-Codepages enthalten stets die gleichen Zeichensätze, u. a. die lateinischen Buchstaben, im Binärbereich von 32 bis 127 (0x20 bis 0x7F). Erst oberhalb von 128 (0x80) unterscheidet sich die Belegung der Codepages.

Die meisten europäischen Sprachen (und somit Schriften) lassen sich mit einer einzigen Codepage darstellen (Latein 1, Codepage 1252). Derzeit gibt es insgesamt acht ANSI-Codepages für Sprachen, die mit 256 Zeichen auskommen:

CodepageBeschreibungBeispiel
1250Latein 2 (Mitteleuropa)Albanisch, Polnisch
1251Kyrillisch (Slawisch)Bulgarisch, Russisch
1252Latein 1 (ANSI)Deutsch, Französisch
1253GriechischGriechisch
1254Latein 5 (Türkisch)Türkisch
1255HebräischHebräisch
1256ArabischArabisch
1257BaltischEstnisch, Litauisch

Für asiatische Sprachen, für die ein Einzelbyte-Zeichensatz (Single Byte Character Set = SBCS-System) aufgrund der Zeichen- und Silbenvielfalt nicht ausreichend ist, wurden folgende Codepages festgelegt:

CodepageBeschreibungBeispiel
932JapanischJapan
936Chinesisch (vereinfacht)Volksrepublik China, Singapur
949KoreanischKorea
950Chinesisch (traditionell)Hongkong, Taiwan

Verwendung von Codepages

Codepage-Informationen werden stets dann benötigt, wenn Daten zwischen Unicode- und Single/Double Byte-Zeichensätzen kopiert werden müssen.

Die Ressourcen, die SDL Passolo aus einer Quellanwendung ausliest, liegen stets im Unicode-Zeichensatz vor. In der ASCII-Version von Passolo werden Ressourcen beim Einlesen einer Quelldatei vom Unicode- in den Double Byte-Zeichensatz konvertiert. Beim Generieren einer Zieldatei erfolgt der umgekehrte Vorgang.

Die Übersetzung sollte unter einem Betriebssystem erfolgen, das die Codepage der Zielsprache unterstützt und einen passenden Zeichensatz aufweist. Wenn Sie eine griechische Übersetzung auf einem Computer unter der griechischen Version von Windows 95 anfertigen, ist die richtige Codepage bereits eingestellt.

Auch Passolo greift auf Codepage-Informationen zurück. Alle Daten werden intern im Unicode-Zeichensatz kodiert. Die Textinhalte der Glossare und der ASCII-Exportdateien liegen jedoch unter Umständen im Single-/Double Byte-Zeichensatz vor. Das Lesen und Schreiben dieser Daten funktioniert nur dann korrekt, wenn die richtige Codepage verwendet wird.

Wenn Sie feststellen, dass Übersetzungen aus Glossaren oder ASCII-Exportdateien in den Übersetzungslisten nicht korrekt dargestellt werden, prüfen Sie die entsprechende Einstellung der Codepage im Dialogfeld „Eigenschaften – Quelltextliste“.