断句

Studio 通过将文本划分为句段来处理要翻译的文件。句段可以是一个段落或一个句子。标点符号用于识别每个句段的结束位置。这称为断句,将影响打开文档时在编辑器中显示文本的方式。

在 Studio 编辑器中打开文件时,它会经历三个级别的断句:

  1. 基于结构的断句
  2. 基于规则的断句
  3. 基于内嵌标记的断句

基于结构的断句

这是第一个级别的断句,它根据定义的结构元素来分割输入文件。这取决于使用的文件类型或/和用户定义的设置(例如 XML 解析器结构规则)。

基于规则的断句

在文档分割为段落单元后,将根据翻译记忆库断句规则执行另一轮断句。用户可以定义将用作句子分割器的字符或 RegEx 模式。基于规则的断句适用于所有文件类型,基于默认的翻译记忆库。

断句规则可在翻译记忆库设置中更改。

基于内嵌标记的断句

第三级也是最后一层断句将使用断句提示来处理最终句段形式。断句提示定义在句段边界(前导或尾随)上显示的标记占位符或标记对的要求行为。在此阶段,Studio 将决定分割成句段的哪些内容(文本 + 标记 + 占位符)可翻译,哪些不可翻译。使用以下断句提示:

  • 包含
  • 排除
  • 包含文本
  • 可以排除