Überblick über den Segmentierungsprozess

Segmentierungseinstellungen legen fest, wie ein Translation Memory (TM) oder ein Projekt Ausgangstext in Segmente unterteilt.

Segmentierungsregeln werden im Abschnitt Sprachressourcen der TM-Einstellungen definiert. Sie können auch die Segmentierungsregeln definieren, die Trados GroupShare verwendet, wenn kein anwendbares TM vorhanden ist: Diese Regeln werden in einer Sprachressourcen-Vorlage definiert, deren Speicherort in den Projekteinstellungen festgelegt wird.

Segmentierungsregeln

Segmentierungsregeln werden durch reguläre Ausdrücke definiert, die ein Segment angeben.

Oft ist ein Segment identisch mit einem Satz. Für diesen Fall werden in den regulären Ausdrücken Textmuster festgelegt, die einen Satz bilden.

In einem Projekt können mehrere Master-TMs mit derselben Sprachkombination, aber unterschiedlichen Segmentierungsregeln verwendet werden.Master-TMsSegmentierungsregeln

Regeln, die Ausnahmen angeben

Liste von Abkürzungen. Diese enthält eine Liste von Abkürzungen, die mit einem Punkt (.) enden, zum Beispiel „etc.“ Der Punkt am Ende von „etc.“ markiert nicht notwendigerweise das Ende eines Satzes, kann dies jedoch gelegentlich tun.

Liste von Ordinalsubstantiven. Ähnlich wie bei Abkürzungen markiert auch bei Ordinalsubstantiven ein Punkt nicht unbedingt das Ende eines Segments: Folgen auf ihn einige Substantive, bedeutet eine Reihe von Ziffern, gefolgt von einem Punkt (z. B. 23.), die Ordinalzahl (23.), nicht das Ende eines Satzes. Beispiel: 23. April kann das Datum 23. April bedeuten. Die Liste der Ordinalsubstantive ist die Liste solcher Substantive.

Beispiel: Eine einfache Segmentierungsregel

\.+[\p{Pe}\p{Pf}\p{Po}"]*

Dieser reguläre Ausdruck gibt ein Segment auf ziemlich einfache Weise an. Alle Zeichen werden bis zu einem Interpunktionszeichen abgeglichen, das das Segment schließt.

Schließende, abschließende und andere Interpunktion sind Unicode-Kategorien für die folgenden Codes:

\p{Pe} gibt eine schließende Interpunktion an.

\p{Pf} gibt eine abschließende Anführungszeichen-Interpunktion an.

\p{Po} gibt eine andere Interpunktion an.

Weitere Informationen finden Sie beispielsweise unter Unicode-Kategorieaufzählung.