Reglas de segmentación
Las reglas de segmentación son reglas de procesamiento del lenguaje personalizables, definidas por las expresiones regulares que especifican un segmento. A menudo, un segmento representa una frase, en cuyo caso la expresión regular especifica los patrones de texto que constituyen una frase.
Las reglas de procesamiento del lenguaje se especifican en el motor de traducción para todo el proyecto. Todas las memorias de traducción seleccionadas en un motor de traducción deben tener la misma regla de procesamiento del lenguaje. Si se necesitan varias reglas de segmentación, deben definirse en la misma regla de procesamiento del lenguaje.
Salto de segmento
La definición de salto de segmento tiene dos partes:
- Antes del salto: un patrón para el texto inmediatamente anterior al salto de segmento.
- Después del salto: otro patrón de texto que define el texto inmediatamente posterior al salto.
Solo se crea un salto de segmento si hay texto coincidente con el patrón de Antes del salto y lo sigue inmediatamente texto que coincide con el patrón de Después del salto.
Varias reglas
Se puede tener varias reglas de segmentación, por ejemplo, una regla para definir la segmentación donde hay dos puntos y otra regla para cuando hay un punto. En cualquier proyecto, para la misma combinación de idiomas, se pueden utilizar varias memorias de traducción principales con diferentes reglas de segmentación.
Otros recursos lingüísticos que afectan a la segmentación
- Lista de abreviaturas: contiene las abreviaturas que finalizan con un punto (.), por ejemplo, etc. El punto al final de etc. no necesariamente marca el final de una oración, aunque podría hacerlo.
- Lista de sustantivos tras ordinal con punto: al igual que las abreviaturas, los sustantivos tras ordinal con punto representan casos en los que un punto no marca necesariamente el final de un segmento; cuando van seguidos de algunos sustantivos, un conjunto de dígitos seguidos de un punto (por ejemplo, 23.) representa el ordinal (23º), no el final de una frase. Por ejemplo, 23. April puede significar 23 de abril.
Excepciones a las reglas
Ejemplo
La siguiente regla se utiliza como una excepción a la regla de segmentación que define un segmento delimitado por un punto (punto final). Puesto que se utiliza como excepción, la memoria de traducción trata el texto que coincide con este patrón como una sección de texto que no contiene un salto de segmento, incluso si el texto también coincide con el patrón más general que define un salto de segmento.
Esta regla se refiere a cualquier texto que contenga un punto (quizás seguido de otra puntuación de cierre), seguido de un espacio y, a continuación, una letra minúscula:
Antes del salto
\.+[\p{Pe}\p{Pf}\p{Po}"]*
\p{Pe}especifica una puntuación de cierre.\p{Pf}especifica la puntuación final.\p{Po}especifica otros signos de puntuación.
Después del salto
\s\p{Ll}
Esta expresión regular se refiere a un espacio seguido de una letra minúscula.
Para obtener más información acerca de las categorías Unicode, consulte la documentación de Microsoft.