Segmentierung und Tokenisierung
Um TMs effektiv nutzen zu können, müssen Sie verstehen, wie Trados Studio Ausgangsdateien segmentiert und tokenisiert. Wenn Sie eine Datei öffnen, verwendet die Software die Dateityp-Einstellungen für die erste Segmentierung. Es verwendet dann die TM-Segmentierungsregeln (unter Berücksichtigung einiger Dateityp-Einstellungen), um die Segmentierung zu verfeinern.
Die Software verwendet die Segmentierungsregeln aus dem TM (oder, wenn Sie eine TM-Sequenz verwenden, aus dem ersten TM in der Sequenz). Nach der Segmentierung verwendet die Software die TM- Einstellungen zum Ersetzen von Text mit Tokens, wo dies angebracht ist (Tokenisierung).
Absatzsegmentierung
Wenn Sie eine Datei in Trados Studio öffnen, unterteilt die Software anhand der Regeln in den Dateityp-Einstellungen die Datei in Absätze. Jeder Dateityp hat unterschiedliche Regeln für die Begrenzung von Absätzen. Beispiel: Bei einfachen begrenzten Text-Dateien fügt das Zeichen für einen Zeilenumbruch einen Absatzumbruch ein, aber in HTML-Dateien fügen Tags wie <p> Absätze ein, und ein Zeichen für einen Zeilenumbruch entspricht einem Leerzeichen. Für Dateitypen, die Tags verwenden (zum Beispiel HTML und XML), können Sie angeben, dass ein Tag ein „Struktur“-Tag ist. So wird deutlich, dass dieses Tag Absätze delimitiert.
Satzsegmentierung
Segmentierungsregeln sind Eigenschaften des TMs (unter Sprachressourcen). Sie können die absatzbasierte Segmentierung festlegen, damit Trados Studio keine weitere Segmentierung durchführt. In der Regel legen Sie jedoch die satzbasierte Segmentierung fest. Dabei verwendet die Software die Segmentierungsregeln zum Unterteilen der Absätze in Segmente.
Die Segmentierungsregeln sind reguläre Ausdrücke, die Zeichenmuster erkennen, welche das Ende von Sätzen markieren. Beispiel: Ein Punkt gefolgt von einem Leerzeichen markiert normalerweise das Ende eines Satzes.
Wenn die Software einen Absatz segmentiert, berücksichtigt sie auch die folgenden Einstellungen:
- Ob Abkürzungen und Ordinalsubstantive erkannt werden. Wenn sie erkannt werden, dann können einige Segmente auch Punkte enthalten. (Diese Erkennung ist eine Eigenschaft der TM-Sprachressourcen.)
- Segmentierungstipps. Ein Segmentierungstipp zeigt an, ob die Software das Tag als Angabe eines Segmentumbruchs („ausschließen“) oder als Teil eines Segments („einschließen“) behandeln soll. Segmentierungstipps sind Dateityp-Einstellungen für ein Tag.
Die Segmente, die durch die Satzsegmentierung erstellt werden, werden dem Übersetzer im Editor angezeigt. Die Software vergleicht jedes Segment mit den Übersetzungseinheiten in den TMs, um zu sehen, ob es eine Übereinstimmung gibt.
Tokenisierung
Tokenisierung findet nach der Segmentierung statt. Die Software unterteilt ein Segment in Tokens, wenn sie nach einer Übereinstimmung für das Segment sucht. Im TM wird Text in Tokenform gespeichert.
Die TM-Einstellungen bestimmen, was ein Token ist. Beispiel: Wenn das TM Datumsangaben als platzierbare Elemente behandelt, wird 12. Januar 1900 als ein einziges Token angesehen. Wird eine Datumsangabe hingegen nicht als platzierbares Element erkannt, wird sie wie drei Tokens behandelt: 12, Januar und 1900.
Wenn ein Segment des angegebenen Texts platzierbare Elemente enthält, kann ein TM eine Übereinstimmung auf der Grundlage eines Musters anstatt des genauen Wortlauts finden. Wenn beispielsweise Daten als platzierbare Elemente erkannt werden, werden die folgenden Segmente als identisch behandelt:
He arrived on 1 January 1900
He arrived on 2 February 2012
Die TM-Einstellungen geben zwar an, welche Textmuster tokenisiert werden, die Art der Behandlung von platzierbaren Elementen durch den Übersetzungseditor – zum Beispiel, ob er Datumsangaben automatisch lokalisiert – hängt aber nicht von den TM-Einstellungen, sondern von den Projekteinstellungen ab.