TM の翻訳単位とトークンにおけるデータの保持
翻訳メモリ (TM) の核となる情報は、原文分節と翻訳の組み合わせです。原文テキストの分節と翻訳済みテキストの分節から構成される各ペアは、翻訳単位 (TU) と呼ばれます。完全一致の場合を除き、TM で TU 間の関係が指定されることはありません。各 TU には、フィールドと呼ばれる関連付けられたデータ (作成者など) があります。
正確に文字どおりに格納されるテキストもあれば、日付などのように、トークン化された形式で格納されるテキストもあります。テキストが認識済みトークンとして格納される場合、TM は、基本的に同じだがトークンについては値が異なる原文テキスト (言及されている日付が異なる以外は同じである文など) を一致と見なすことができます。
トークンとして格納されるテキスト
テキストが固定要素として認識された場合、TM ではトークン化された形式で格納されます。トークンを使用すると、TM で次の 2 つの分節を容易に対応付けることができます (TM が数字を固定要素として認識しているとします)。
I bought 5 apples.(TM 内)
I bought 10 apples.(原文内)
訳語検索や文字単位でない言語におけるトリグラム インデックスの使用
単語区切りを持たないことがある言語や、訳語検索が選択されているすべての言語の場合、TM は 3 つ連続するすべての文字 (トリグラム) をインデックス化し、このインデックス内容を使用して一致を検出します。
たとえば、原文テキストが次である場合:
The cat sat on the mat.
TM には、次に対応するインデックスが生成されます。
conref および conrefend 属性
he
e c
ca
cat
以下同様。