Kodieren von XML-Dateien

Unicode-Dateien können mit sogenannten Byte Order Marks (BOMs) versehen sein. Diese ersten Bytes der Datei legen die Unicode-Kodierung fest. Die folgende Liste gibt die Codes wieder:

EF BB BFUTF-8
FF FELittle Endian
FE FFBig Endian

Für Dateien ohne BOMs nimmt der XML-Parser automatisch UTF-8 an (und keine Codepage-basierte Kodierung). Ist die Datei Codepage-basiert, muss sie mit einer XML-Deklaration beginnen, die die Codepage-Kodierung enthält. Der folgende Code-Abschnitt stellt die XML-Deklaration für die Verwendung des westeuropäischen Zeichensatzes ISO-8859-1 dar.

<xml version="1.0" encoding="ISO-8859-1" >
XML-Dateien mit BOMs sollten keine Encoding-Anweisung enthalten, da sie ja bereits durch die BOMs definiert sind. Widersprüchliche Angaben von BOMs und Encoding-Anweisungen führen zu einem Fehler während des Parsens der Datei.