Überblick über den Segmentierungsprozess
Segmentierungseinstellungen legen fest, wie ein Translation Memory (TM) oder ein Projekt Ausgangstext in Segmente unterteilt.
Segmentierungsregeln
Segmentierungsregeln werden durch reguläre Ausdrücke definiert, die ein Segment angeben.
Oft ist ein Segment identisch mit einem Satz. Für diesen Fall werden in den regulären Ausdrücken Textmuster festgelegt, die einen Satz bilden.
In einem Projekt können mehrere Master-TMs mit derselben Sprachkombination, aber unterschiedlichen Segmentierungsregeln verwendet werden.Master-TMsSegmentierungsregeln
Regeln, die Ausnahmen angeben
Liste von Abkürzungen. Diese enthält eine Liste von Abkürzungen, die mit einem Punkt (.) enden, zum Beispiel „etc.“ Der Punkt am Ende von „etc.“ markiert nicht notwendigerweise das Ende eines Satzes, kann dies jedoch gelegentlich tun.
Liste von Ordinalsubstantiven. Ähnlich wie bei Abkürzungen markiert auch bei Ordinalsubstantiven ein Punkt nicht unbedingt das Ende eines Segments: Folgen auf ihn einige Substantive, bedeutet eine Reihe von Ziffern, gefolgt von einem Punkt (z. B. 23.), die Ordinalzahl (23.), nicht das Ende eines Satzes. Beispiel: 23. April kann das Datum 23. April bedeuten. Die Liste der Ordinalsubstantive ist die Liste solcher Substantive.
Beispiel: Eine einfache Segmentierungsregel
\.+[\p{Pe}\p{Pf}\p{Po}"]*
Dieser reguläre Ausdruck gibt ein Segment auf ziemlich einfache Weise an. Alle Zeichen werden bis zu einem Interpunktionszeichen abgeglichen, das das Segment schließt.
Schließende, abschließende und andere Interpunktion sind Unicode-Kategorien für die folgenden Codes:
\p{Pe} gibt eine schließende Interpunktion an.
\p{Pf} gibt eine abschließende Anführungszeichen-Interpunktion an.
\p{Po} gibt eine andere Interpunktion an.
Weitere Informationen finden Sie beispielsweise unter Unicode-Kategorieaufzählung.