Règles de segmentation

Les règles de segmentation définissent la façon dont Trados Studio divise les paragraphes du texte source en segments. Le plus souvent, un segment correspond à une phrase, auquel cas les règles définissent les modèles de texte qui constituent une phrase.

Dans Trados Studio, les règles de segmentation sont définies selon des expressions régulières. Ces expressions régulières définissent les modèles de caractères marquant la fin des phrases. Vous trouverez ci-après une description des expressions régulières utilisées pour les règles de segmentation par défaut. Les règles de segmentation sont une ressource linguistique et leur ajout, modification ou suppression s'effectue donc sous la ressource linguistique appropriée. Un saut de segment se définit selon deux critères :

Avant le saut de ligne
Texte immédiatement avant le saut de segment.
Après le saut de ligne
Texte immédiatement après le saut de ligne.

Un saut de segment est créé uniquement si du texte correspond au modèle Avant le saut de ligne, qu'il est immédiatement suivi par du texte correspondant au modèle Après le saut de ligne et qu'il ne correspond à aucune des règles d'exception.

Règles d'exception

Une règle d'exception possède le même format qu'une règle de segmentation. Si le texte correspond à une règle d'exception, le saut de segment n'est pas créé. Une règle d'exception courante est celle de la lettre minuscule dans la règle du point comme caractère de fin de segment. Elle stipule que si un point est suivi d'une lettre minuscule, le saut de segment ne doit pas être créé.

Plusieurs règles de segmentation

Vous pouvez utiliser plusieurs règles de segmentation à la fois : par exemple, une pour définir la segmentation en présence d'un deux-points et une autre en présence d'un point.

Dans les différents projets d'une même paire de langues, vous pouvez utiliser plusieurs MT principales avec des règles de segmentation différentes.

Autres paramètres affectant la segmentation par phrase

  • Liste des Abréviations. Elle recense les abréviations se terminant par un point (.), comme « etc. » dont le point ne marque pas nécessairement la fin d'une phrase.
  • Liste des Séparateurs de nombres. Comme les abréviations, les séparateurs de nombres ne marquent pas nécessairement la fin d'un segment. Par exemple, en allemand, si April est un séparateur de nombres, l'expression 23. April signifie 23 avril et non pas 23 suivi d'une phrase commençant par Avril.

À propos des expressions régulières dans les règles de segmentation par défaut

Les expressions régulières utilisées dans les règles de segmentation par défaut font largement appel aux catégories Unicode. Catégories utilisées :

\p{Ll}
Lettres minuscules
\p{Pe}
Tout type de parenthèse de fermeture
\p{Pf}
Tout type de guillemet de fermeture
\p{Po}
Tout caractère de ponctuation excepté le trait d'union, la parenthèse, le guillemet ou le caractère de soulignement
\uFFFF
Caractères Unicode. Par exemple, \u002C pour la virgule et \u003A pour les deux-points.