断句规则

断句规则定义 SDL Trados Studio 如何将原文文本段落划分为句段。通常,句段与句子一致,规则指定构成句子的文本格式。

Trados Studio 中,句段规则以正则表达式的形式指定。这些正则表达式定义标记句子末尾的字符模式。请参阅下方用于默认句段规则的正则表达式描述。句段规则是一种语言资源,因此可在相应语言资源下添加、编辑和删除它们。断句符定义分两部分定义:

分隔符前
断句符前紧接的文本格式。
分隔符后
定义分隔符后紧接文本的另一文本格式。

仅当某些文本匹配分隔符前格式,才会创建断句符,且紧跟符合分隔符后格式的文本,且不匹配任何例外规则。

例外规则

例外规则与断句规则具有相同形式。如果文本匹配例外规则,则不创建断句符。常见例外规则是句号断句规则的小写字母例外规则。也就是说,如果句号后面的字母是小写字母,则不创建断句符。

多个断句规则

您可具有多个断句规则,例如一个规则定义具有逗号的断句,另一个规则定义具有句号的断句。

在任一项目中,相同语言对可使用具有不同断句规则的多个主 TM

影响句子断句的其他设置

  • 缩写列表。这包括以句号 (.) 结束的缩写列表,例如“etc.”。“etc.”末尾的句号不一定表示句子结束,有时可能如此。
  • 序列词列表。如同缩写一样,序列词列举句号不一定表示句段结束的情况。例如:如果 Avril... 是一个序列词,则短语 23.April 表示 23rd April,而不是 23 后接以 April... 开头的句子。

关于默认句段规则中使用的正则表达式

默认句段规则中使用的正则表达式大量使用 Unicode 类。所用 Unicode 如下所示

\p{Ll}
小写字母
\p{Pe}
任何闭括号
\p{Pf}
任何闭引号
\p{Po}
除破折号、括号、引号或连字符(下划线)外的任何标点符号
\uFFFF
Unicode 字符。例如,\u002C 代表逗号,\u003A 代表冒号。