Segmentierung
Studio verarbeitet Dateien zur Übersetzung, indem es Texte in Segmente aufteilt. Segmente können ganze Absätze oder einzelne Sätze umfassen. Anhand von Interpunktionszeichen wird festgelegt, wo ein Segment endet. Dieser Prozess wird als Segmentierung bezeichnet und hat Auswirkungen darauf, wie der Text beim Öffnen eines Dokuments im Editor dargestellt wird.
Wenn eine Datei im Studio Editor geöffnet wird, durchläuft sie drei Segmentierungsebenen:
- Strukturbasierte Segmentierung
- Regelbasierte Segmentierung
- Inline-Tags-basierte Segmentierung
Strukturbasierte Segmentierung
Auf dieser Segmentierungsebene wird die Eingabedatei anhand festgelegter Strukturelemente aufgeteilt (z. B. verwendeter Dateityp, benutzerdefinierte Einstellungen oder Regeln zur XML-Parser-Struktur).
Regelbasierte Segmentierung
Nachdem das Dokument in Absätze unterteilt wurde, wird eine weitere Segmentierung vorgenommen, diesmal auf Grundlage von Segmentierungsregeln für Translation Memorys. Benutzer können z. B. Zeichen oder RegEx-Muster festlegen, die als „Satztrenner“ fungieren sollen. Die regelbaiserte Segmentierung ist für alle Dateitypen verfügbar und basiert auf dem Standard-Translation Memory.
Die Segmentierungsregeln können in den Translation Memory-Einstellungen geändert werden.
Inline-Tags-basierte Segmentierung
Auf der dritten und letzten Segmentierungsebene werden Segmentierungshinweise zur Bearbeitung der endgültigen Segmentform verwendet. Segmentierungshinweise legen das erforderliche Verhalten eines Tag-Platzhalters oder Tag-Paars fest, der bzw. das an einem Segmentanfang oder -ende steht (vorangestellt oder nachgestellt). In dieser Phase entscheidet Studio, welche der in Segmente aufgeteilten Inhalte (Text, Tags und Platzhalter) zu übersetzen und welche Inhalte nicht bearbeitbar sein sollen. Die folgenden Segmentierungshinweise werden verwendet:
- Einschließen
- Ausschließen
- Innerhalb von Segmenten mit Text
- Kann außerhalb von Segmenten stehen