将数据包含于 TM 翻译单元和标记中

翻译记忆库 (TM) 中的核心信息是原文句段及其译文的集合。每对源文和译文句段称为一个翻译单元 (TU)。除了完全匹配之外,TM 并不指定 TU 之间的关系。每个 TU 具有称为字段的关联数据(例如作者)。

某些文本逐字保存,而日期等其他文本通常以标记形式存储。文本存储为标记时,TM 可以匹配实质内容相同但标记值不同的源文,例如只有日期不同的相同句子。

文本存储为标记

文本被识别为代码块时,TM 以标记形式存储文本。使用标记更加便于 TM 匹配以下两个句段(假定 TM 将数字识别为代码块):

I bought 5 apples.(在 TM 中)

I bought 10 apples.(在原文中)

相关和非字符语言使用三字母组索引

对于可能没有连字符的语言或选择相关搜索的语言,TM 将每三个连续字母(三字母组)建立索引,并使用这些索引内容查找匹配。

例如,如果原文如下:

The cat sat on the mat.

TM 将创建索引:

所有元素上的

he

e c

ca

cat

等等。