断句和标记化
理解 SDL Trados Studio 如何断句和添加标记,源文件是有效使用 TM 的关键。当打开文件时,软件使用文件类型设置进行初步断句。然后使用 TM 断句规则(考虑某些文件类型设置)进一步断句。
软件使用 TM 中的断句规则(如果使用 TM 序列,则使用序列中的第一个 TM)。断句之后,软件使用 TM 设置替换具有适用标记(“标记化”)的文本。
段落断句
在 SDL Trados Studio 中打开文件时,软件使用文件类型设置中的规则将文件分成段落。每个文件类型具有划分段落的不同规则。例如,在简单分段的文本文件中,新行字符引出段落分隔符,但在 HTML 文件中,<p> 等标记引出段落,新行字符是非打印字符,等同于空格。对于使用标记的文件类型(例如 HTML 和 XML),您可指定标记为“结构”标记以表示它用于划分段落。
句子断句
断句规则是 TM 的属性(在语言资源下)。您可指定基于段落的断句,这种情况下 SDL Trados Studio 不会进一步断句。但通常可指定基于句子的断句,这种情况下软件使用断句规则将段落划分为句段。
断句规则是识别标记句子末尾的字符模式的正则表达式。示例:非打印字符后跟的句号通常表示句子结束。
软件对段落断句时,还会考虑以下设置:
- 是否识别缩写和序列词。如果识别,则某些句段可以包含句号。(这种识别功能是 TM 语言资源的一种属性。)
- 断句提示。断句提示表示软件是否将标记视为断句符(“排除”)或在句段中包括标记(“包括”)。断句提示是标记的文件类型设置。
句子断句产生的句段即译员在编辑器中看到的句段。软件比较每个句段与 TM 中的翻译单元,以查看是否存在匹配。
标记化
标记化是断句后的阶段。搜索句段的匹配项时,软件将句段划分为标记。在 TM 中,文本存储为标记。
TM 设置决定了哪些内容构成标记。例如,如果 TM 将日期视为已识别标记,12 January 1900 则被视为一个标记,如果日期不被识别,则视为三个标记:12、January 和 1900。
当显示文本的句段包含已识别标记时,TM 可以根据格式而非完整词语查找匹配。例如,如果日期识别为标记,以下句段将视为一致:
He arrived on 1 January 1900
He arrived on 2 February 2012
尽管 TM 设置指定标记化的文本格式,但翻译编辑器处理标记的方式取决于项目设置,而非 TM 设置,例如是否自动本地化日期。