断句规则
断句规则是指可自定义的语言处理规则,由指定句段的正则表达式定义。通常一个句段代表一个句子,其中,正则表达式指定构成句子的文本格式。
语言处理规则在整个项目的翻译引擎中指定。在翻译引擎中选择的所有翻译记忆库 (TM) 必须具有相同的语言处理规则。如果需要多条断句规则,则必须在同一语言处理规则中定义它们。
断句符
断句符定义分两部分定义:
- 分隔符前:断句符前紧接的文本格式。
- 分隔符后:定义分隔符后紧接文本的另一文本格式。
仅当某些文本匹配分隔符前格式,且紧跟符合分隔符后格式的文本,才会创建断句符。
多条规则
您可能需要多条断句规则,例如一条规则用于定义具有冒号的断句,另一条规则用于定义具有句点的断句。在相同语言对的任一项目中,您可使用具有不同断句规则的多个(主)TM。
影响断句的其他语言资源
- 缩写列表 - 该列表包含以句点 (.) 结束的缩写,例如 etc.。etc. 末尾的句点不一定表示句子结束,虽然有时可能如此。
- 序列词列表 - 与缩写类似,序列词中的句点也不一定表示句子结束:当后面接名词时,一组数字后跟句点(例如 23.)表示序列词 (23rd),而不是句子结束。例如,23.April 可能表示 23rd April(4 月 23 日)。
指定例外情况的规则
此外,即使文本满足这些规则,但与例外规则匹配,那么也不会创建断句符。例如,您可能希望定义一种例外情况,允许在句子中使用句点。
示例
以下规则用作定义由句点(句号)分隔的句段的断句规则例外情况。由于它是例外情况,因此 TM 会将匹配该格式的文本视为与不包含断句符的文本部分相匹配,即使文本同时与定义断句符的更通用格式相匹配也是如此。
该规则匹配任何包含句点(可能后面跟其他结尾标点符号)、后跟空格和小写字母的文本:
分隔符前
\.+[\p{Pe}\p{Pf}\p{Po}"]*
结束、最后和其他标点符号是指由以下代码定义的 Unicode 类别:
\p{Pe}指定结束标点符号。\p{Pf}指定最后的引号。\p{Po}指定其他标点符号。
分隔符后
\s\p{Ll}
该正则表达式适用于空格后面跟一个小写字母的情况。
有关 Unicode 类别的详情,请参阅 Microsoft 文档。