Règles de segmentation

Les règles de segmentation sont des règles de traitement de la langue personnalisables, définies par les expressions régulières qui spécifient un segment. Le plus souvent, un segment correspond à une phrase, auquel cas les expressions régulières définissent les modèles de texte qui constituent une phrase.

Les règles de traitement de la langue sont spécifiées dans le moteur de traduction pour l’ensemble du projet. Toutes les mémoires de traduction sélectionnées dans un moteur de traduction doivent avoir la même règle de traitement de la langue. Si plusieurs règles de segmentation sont nécessaires, elles doivent être définies dans la même règle de traitement de la langue.

Saut de segment

Un saut de segment se définit selon deux critères :

  • Avant le saut de ligne : texte immédiatement avant le saut de segment.
  • Après le saut de ligne : texte immédiatement après le saut de ligne.

Un saut de segment est créé uniquement si du texte correspond au modèle Avant le saut de ligne, et qu’il est immédiatement suivi par du texte correspondant au modèle Après le saut de ligne.

Règles multiples

Vous pouvez utiliser plusieurs règles de segmentation à la fois : par exemple, une pour définir la segmentation en présence d’un deux-points et une autre en présence d’un point. Dans les différents projets d’une même paire de langues, vous pouvez utiliser plusieurs MT (principales) avec des règles de segmentation différentes.

Autres ressources linguistiques affectant la segmentation

  • Liste des abréviations : la liste recense les abréviations se terminant par un point (.), comme etc. Le point à la fin de etc. ne marque pas nécessairement la fin d’une phrase.
  • Liste des séparateurs de nombres : similaires aux abréviations, les séparateurs de nombres fournissent des cas où un point ne marque pas nécessairement la fin d’un segment. Lorsqu’il est suivi de quelques noms, un ensemble de chiffres suivi d’un point (par exemple, 23.), celui-ci désigne le nombre ordinal (23e) et non la fin d’une phrase. Par exemple, 23. April peut signifier 23 avril.

Règles spécifiant des exceptions

De plus, même si le texte respecte ces règles, si le texte correspond également aux règles d’exception, aucun saut de segment n’est effectué. Vous pouvez définir une exception pour l’utilisation d’un point dans une phrase, par exemple.

Exemple

La règle suivante est utilisée comme exception à la règle de segmentation qui définit un segment démarqué par un point (point final). Étant donné qu’elle est utilisée comme exception, la MT traite le texte qui correspond à ce modèle comme une section de texte ne contenant pas de saut de segment, même si le texte correspond également au modèle plus général qui définit un saut de segment.

Cette règle correspond à tout texte contenant un point (peut-être suivi d’autres signes de ponctuation finale), suivi d’un espace, puis d’une lettre minuscule :

Avant le saut de ligne

\.+[\p{Pe}\p{Pf}\p{Po}"]*

Les catégories Fermer, Finale et Autre ponctuation, sont définies en tant que catégories Unicode pour les codes suivants :
  • \p{Pe} spécifie la ponctuation finale.
  • \p{Pf} spécifie la ponctuation finale d’une citation.
  • \p{Po} spécifie les autres signes de ponctuation.

Après le saut de ligne

\s\p{Ll}

Cette expression régulière correspond à une espace suivie d’une lettre minuscule.

Pour plus d’informations sur les catégories Unicode, consultez la documentation Microsoft.