Règles de segmentation
Les règles de segmentation sont des règles de traitement de la langue personnalisables, définies par les expressions régulières qui spécifient un segment. Le plus souvent, un segment correspond à une phrase, auquel cas les expressions régulières définissent les modèles de texte qui constituent une phrase.
Les règles de traitement de la langue sont spécifiées dans le moteur de traduction pour l'ensemble du projet. Toutes les mémoires de traduction sélectionnées dans un moteur de traduction doivent avoir la même règle de traitement de la langue. Si plusieurs règles de segmentation sont nécessaires, elles doivent être définies dans la même règle de traitement de la langue.
Saut de segment
Un saut de segment se définit selon deux critères :
- Avant le saut de ligne : Texte immédiatement avant le saut de segment.
- Après le saut de ligne : Texte immédiatement après le saut de ligne.
Un saut de segment est créé uniquement si du texte correspond au modèle Avant le saut de ligne, et qu'il est immédiatement suivi par du texte correspondant au modèle Après le saut de ligne.
Règles multiples
Vous pouvez utiliser plusieurs règles de segmentation à la fois : par exemple, une pour définir la segmentation en présence d'un deux-points et une autre en présence d'un point. Dans les différents projets d'une même paire de langues, vous pouvez utiliser plusieurs MT (principales) avec des règles de segmentation différentes.
Autres ressources linguistiques affectant la segmentation
- Liste des abréviations : la liste recense les abréviations se terminant par un point (.), comme etc. Le point à la fin de etc. ne marque pas nécessairement la fin d'une phrase.
- Liste des séparateurs de nombres : similaires aux abréviations, les séparateurs de nombres fournissent des cas où un point ne marque pas nécessairement la fin d'un segment. Lorsqu'il est suivi de quelques noms, un ensemble de chiffres suivi d'un point (par exemple, 23.), celui-ci désigne le nombre ordinal (23e) et non la fin d'une phrase. Par exemple, 23. Avril peut signifier à partir du 23 avril.
Règles spécifiant des exceptions
Exemple
La règle suivante est utilisée comme exception à la règle de segmentation qui définit un segment démarqué par un point (point final). Étant donné qu'elle est utilisée comme exception, la MT traite le texte qui correspond à ce modèle comme une section de texte ne contenant pas de saut de segment, même si le texte correspond également au modèle plus général qui définit un saut de segment.
Cette règle correspond à tout texte contenant un point (peut-être suivi d'autres signes de ponctuation finale), suivi d'un espace, puis d'une lettre minuscule :
Avant le saut de ligne
\.+[\p{Pe}\p{Pf}\p{Po}"]*
\p{Pe}spécifie la ponctuation finale.\p{Pf}spécifie la ponctuation finale d'une citation.\p{Po}spécifie les autres signes de ponctuation.
Après le saut de ligne
\s\p{Ll}
Cette expression régulière correspond à un espace suivi d'une lettre minuscule.
Pour plus d'informations sur les catégories Unicode, consultez la documentation Microsoft.