将数据包含于 TM 翻译单元和标记中
翻译记忆库 (TM) 中的核心信息是原文句段及其译文的集合。每对源文和译文句段称为一个翻译单元 (TU)。除了完全匹配之外,TM 并不指定 TU 之间的关系。每个 TU 具有称为字段的关联数据(例如作者)。
某些文本逐字保存,而日期等其他文本通常以标记形式存储。文本存储为标记时,TM 可以匹配实质内容相同但标记值不同的源文,例如只有日期不同的相同句子。
文本存储为标记
文本被识别为代码块时,TM 以标记形式存储文本。使用标记更加便于 TM 匹配以下两个句段(假定 TM 将数字识别为代码块):
I bought 5 apples.(在 TM 中)
I bought 10 apples.(在原文中)
相关和非字符语言使用三字母组索引
对于可能没有连字符的语言或选择相关搜索的语言,TM 将每三个连续字母(三字母组)建立索引,并使用这些索引内容查找匹配。
例如,如果原文如下:
The cat sat on the mat.
TM 将创建索引:
所有元素上的
he
e c
ca
cat
等等。