Kodieren von XML-Dateien
Unicode-Dateien können mit sogenannten Byte Order Marks (BOMs) versehen sein. Diese ersten Bytes der Datei legen die Unicode-Kodierung fest. Die folgende Liste gibt die Codes wieder:
| EF BB BF | UTF-8 |
| FF FE | Little Endian |
| FE FF | Big Endian |
Für Dateien ohne BOMs nimmt der XML-Parser automatisch UTF-8 an (und keine Codepage-basierte Kodierung). Ist die Datei Codepage-basiert, muss sie mit einer XML-Deklaration beginnen, die die Codepage-Kodierung enthält. Der folgende Code-Abschnitt stellt die XML-Deklaration für die Verwendung des westeuropäischen Zeichensatzes ISO-8859-1 dar.
<xml version="1.0" encoding="ISO-8859-1" >
XML-Dateien mit BOMs sollten keine Encoding-Anweisung enthalten, da sie ja bereits durch die BOMs definiert sind. Widersprüchliche Angaben von BOMs und Encoding-Anweisungen führen zu einem Fehler während des Parsens der Datei.