断句规则
断句规则定义 SDL Trados Studio 如何将原文文本段落划分为句段。通常,句段与句子一致,规则指定构成句子的文本格式。
在 Trados Studio 中,句段规则以正则表达式的形式指定。这些正则表达式定义标记句子末尾的字符模式。请参阅下方用于默认句段规则的正则表达式描述。句段规则是一种语言资源,因此可在相应语言资源下添加、编辑和删除它们。断句符定义分两部分定义:
- 分隔符前
- 断句符前紧接的文本格式。
- 分隔符后
- 定义分隔符后紧接文本的另一文本格式。
仅当某些文本匹配分隔符前格式,才会创建断句符,且紧跟符合分隔符后格式的文本,且不匹配任何例外规则。
例外规则
例外规则与断句规则具有相同形式。如果文本匹配例外规则,则不创建断句符。常见例外规则是句号断句规则的小写字母例外规则。也就是说,如果句号后面的字母是小写字母,则不创建断句符。
多个断句规则
您可具有多个断句规则,例如一个规则定义具有逗号的断句,另一个规则定义具有句号的断句。
在任一项目中,相同语言对可使用具有不同断句规则的多个主 TM。
影响句子断句的其他设置
- 缩写列表。这包括以句号 (.) 结束的缩写列表,例如“etc.”。“etc.”末尾的句号不一定表示句子结束,有时可能如此。
- 序列词列表。如同缩写一样,序列词列举句号不一定表示句段结束的情况。例如:如果
Avril...是一个序列词,则短语23.April 表示23rd April,而不是23后接以April...开头的句子。
关于默认句段规则中使用的正则表达式
默认句段规则中使用的正则表达式大量使用 Unicode 类。所用 Unicode 如下所示
- \p{Ll}
- 小写字母
- \p{Pe}
- 任何闭括号
- \p{Pf}
- 任何闭引号
- \p{Po}
- 除破折号、括号、引号或连字符(下划线)外的任何标点符号
- \uFFFF
- Unicode 字符。例如,\u002C 代表逗号,\u003A 代表冒号。