Segmentierungsregeln
Segmentierungsregeln definieren, wie Trados Studio Absätze des Ausgangstexts in Segmente unterteilt. Oft ist ein Segment identisch mit einem Satz. Für diesen Fall werden in den Regeln Textmuster festgelegt, die einen Satz bilden.
In Trados Studio werden Segmentierungsregeln in Form von regulären Ausdrücken angegeben. Diese regulären Ausdrücke definieren Muster von Zeichen, die das Ende von Sätzen markieren. Unten sehen Sie eine Beschreibung der regulären Ausdrücke, die für die standardmäßigen Segmentierungsregeln verwendet werden. Segmentierungsregeln gehören zu den Sprachressourcen und können unter der entsprechenden Sprachressource hinzugefügt, bearbeitet und gelöscht werden. Die Definition eines Segmentendes ist zweiteilig:
- Vor dem Segmentende
- Ein Muster für den Text unmittelbar vor dem Segmentende.
- Nach dem Segmentende
- Ein anderes Muster, das den Text unmittelbar nach dem Segmentende definiert.
Ein Segmentende wird nur dann erstellt, wenn ein Teil des Texts dem Muster Vor dem Segmentende entspricht und direkt darauf ein Text nach dem Muster Nach dem Segmentende folgt. Außerdem darf keine der Ausnahmeregeln zutreffen.
Ausnahmeregeln
Eine Ausnahmeregel hat die gleiche Form wie eine Segmentierungsregel. Wenn der Text einer Ausnahmeregel entspricht, wird kein Segmentende erstellt. Eine häufige Ausnahmeregel ist die Kleinbuchstaben-Ausnahmeregel zur Punkt-Segmentierungsregel. Das bedeutet, es wird kein Segmentende erstellt, wenn der nächste Buchstabe nach dem Punkt ein Kleinbuchstabe ist.
Mehrere Segmentierungsregeln
Es kann mehr als eine Segmentierungsregel geben, beispielsweise eine Regel zur Segmentierung nach einem Doppelpunkt und eine andere Regel zur Segmentierung nach einem Punkt.
In einem Projekt können mehrere Haupt-TMs mit derselben Sprachkombination aber unterschiedlichen Segmentierungsregeln verwendet werden.
Andere Einstellungen, die die Segmentierung auf Satzebene beeinflussen
- Liste von Abkürzungen. Diese enthält eine Liste von Abkürzungen, die mit einem Punkt (.) enden, zum Beispiel „etc.“ Der Punkt am Ende von „etc.“ markiert nicht notwendigerweise das Ende eines Satzes, kann dies jedoch gelegentlich tun.
- Liste von Ordinalsubstantiven. Wie Abkürzungen identifizieren auch Ordinalsubstantive Fälle, in denen ein Punkt nicht zwangsläufig das Ende eines Segments bedeutet. Wenn beispielsweise
Aprilein Ordinalsubstantiv ist, dann bezieht sich23. April auf das Datum23. Aprilund nicht auf eine23, gefolgt von einem Satz, der mitApril...beginnt.
Info zu regulären Ausdrücken in den standardmäßigen Segmentierungsregeln
Für die regulären Ausdrücke in den standardmäßigen Segmentierungsregeln wird häufig von Unicode-Kategorien Gebrauch gemacht. Beispiele hierfür sind
- \p{Ll}
- Kleinbuchstaben
- \p{Pe}
- Jede Art der schließenden Klammer
- \p{Pf}
- Alle schließenden Anführungszeichen
- \p{Po}
- Sämtliche Interpunktionszeichen außer Bindestrich, Klammer, Fragezeichen und Unterstrich
- \uFFFF
- Unicode-Zeichen. Beispiele: \u002C steht für ein Komma und \u003A für einen Doppelpunkt.