断句流程概述
断句设置可定义翻译记忆库 (TM) 或项目如何将原文文本划分为句段。
断句规则在 TM 设置的语言资源部分定义。您还可以定义 Trados GroupShare 在没有适用 TM 时使用的断句规则:这些规则在语言资源模板中定义,其位置在项目设置下指定。
断句规则
断句规则由指定句段的正则表达式定义。
通常,句段与句子一致,在这种情况下正则表达式将指定构成句子的文本格式。
在任一项目中,相同语言对可使用具有不同断句规则的多个主 TM。
指定例外情况的规则
缩写列表。这包括以句号 (.) 结束的缩写列表,例如“etc.”。“etc.”末尾的句号不一定表示句子结束,有时可能如此。
序列词列表。与缩写类似,序列词中的句点也不一定表示句段结束:当后面接名词时,一组数字后跟句点(例如 23.)表示序列词 (23rd),而不是句子结束。例如 23.April 可能表示 23rd April(4 月 23 日)。序列词列表是此类名词的列表。
示例:简单的断句规则
\.+[\p{Pe}\p{Pf}\p{Po}"]*
此正则表达式以非常简单的方式指定句段。它会将所有字符匹配到结束句段的标点符号。
结束、最后和其他标点符号是指由以下代码定义的 Unicode 类别:
\p{Pe} 指定结束标点符号。
\p{Pf} 指定最后的引号。
\p{Po} 指定其他标点符号。
有关详细信息,请参阅例如 Unicode 类别枚举。