断句规则
断句规则可定义翻译记忆库 (TM) 或项目如何将原文文本划分为句段。
断句规则是指可自定义的语言资源,由指定句段的正则表达式定义。通常,句段与句子一致,在这种情况下正则表达式将指定构成句子的文本格式。
断句符定义分两部分定义:
- 分隔符前:断句符前紧接的文本格式。
- 分隔符后:定义分隔符后紧接文本的另一文本格式。
仅当某些文本匹配分隔符前格式,且紧跟符合分隔符后格式的文本,才会创建断句符。
多条规则
您可能需要多条断句规则,例如一条规则用于定义具有冒号的断句,另一条规则用于定义具有句点的断句。
在相同语言对的任一项目中,您可使用具有不同断句规则的多个(主)TM。
影响断句的其他语言资源
- 缩写列表 - 该列表包含以句点 (.) 结束的缩写,例如 etc.。etc. 末尾的句点不一定表示句子结束,虽然有时可能如此。
- 序列词列表 - 与缩写类似,序列词中的句点也不一定表示句子结束:当后面接名词时,一组数字后跟句点(例如 23.)表示序列词 (23rd),而不是句子结束。例如 23.April 可能表示 23rd April(4 月 23 日)。
指定例外情况的规则
此外,即使文本满足这些规则,但与例外规则匹配,那么也不会创建断句符。例如,您可能希望定义一种例外情况,允许在句子中使用句点:
不应在文件名中使用句点 (.)。