断句规则

断句规则是指可自定义的语言处理规则,由指定句段的正则表达式定义。通常一个句段代表一个句子,其中,正则表达式指定构成句子的文本格式。

语言处理规则在整个项目的翻译引擎中指定。在翻译引擎中选择的所有翻译记忆库 (TM) 必须具有相同的语言处理规则。如果需要多条断句规则,则必须在同一语言处理规则中定义它们。

断句符

断句符定义分两部分定义:

  • 分隔符前:断句符前紧接的文本格式。
  • 分隔符后:定义分隔符后紧接文本的另一文本格式。

仅当某些文本匹配分隔符前格式,且紧跟符合分隔符后格式的文本,才会创建断句符。

多条规则

您可能需要多条断句规则,例如一条规则用于定义具有冒号的断句,另一条规则用于定义具有句点的断句。在相同语言对的任一项目中,您可使用具有不同断句规则的多个(主)TM。

影响断句的其他语言资源

  • 缩写列表 - 该列表包含以句点 (.) 结束的缩写,例如 etc.etc. 末尾的句点不一定表示句子结束,虽然有时可能如此。
  • 序列词列表 - 与缩写类似,序列词中的句点也不一定表示句子结束:当后面接名词时,一组数字后跟句点(例如 23.)表示序列词 (23rd),而不是句子结束。例如,23.April 可能表示 23rd April(4 月 23 日)。

指定例外情况的规则

此外,即使文本满足这些规则,但与例外规则匹配,那么也不会创建断句符。例如,您可能希望定义一种例外情况,允许在句子中使用句点。

示例

以下规则用作定义由句点(句号)分隔的句段的断句规则例外情况。由于它是例外情况,因此 TM 会将匹配该格式的文本视为与不包含断句符的文本部分相匹配,即使文本同时与定义断句符的更通用格式相匹配也是如此。

该规则匹配任何包含句点(可能后面跟其他结尾标点符号)、后跟空格和小写字母的文本:

分隔符前

\.+[\p{Pe}\p{Pf}\p{Po}"]*

结束、最后其他标点符号是指由以下代码定义的 Unicode 类别:
  • \p{Pe} 指定结束标点符号。
  • \p{Pf} 指定最后的引号。
  • \p{Po} 指定其他标点符号。

分隔符后

\s\p{Ll}

该正则表达式适用于空格后面跟一个小写字母的情况。

有关 Unicode 类别的详情,请参阅 Microsoft 文档