Stockage des données dans les unités de traduction d'une MT et dans les jetons
Les informations de base d'une mémoire de traduction (MT) sont le jeu de segments source et leur traduction. Chaque paire de segments de texte source et traduit est appelée unité de traduction (UT). Excepté dans le cas d'une correspondance parfaite, les UT n'ont pas de relations entre elles dans une MT. Chaque UT est associée à des données (comme l'auteur), dans une structure appelée champ.
Une partie du texte est stockée telle quelle tandis qu'une autre, comme les dates, est généralement stockée sous forme marquée. Dans ce cas, la MT est capable de trouver des correspondances dans lesquelles le texte source est le même, excepté pour les valeurs de ces jetons. C'est le cas quand deux phrases identiques mentionnent une date différente.
Texte enregistré comme jeton
Lorsque du texte est reconnu comme transposable, la MT le stocke sous forme marquée. L'utilisation des jetons permet à la MT de mettre en correspondance les deux segments suivants (à condition que la MT reconnaisse les chiffres comme des transposables) :
I bought 5 apples. (dans la MT)
I bought 10 apples. (dans le texte source)
Utilisation des index trigramme pour la concordance et les langues à idéogrammes
Pour les langues qui ne pratiquent pas de césure, ou pour toutes les langues si la recherche contextuelle est sélectionnée, la MT indexe trois lettres consécutives (trigramme, pour trois grammes) et utilise ces contenus d'index pour trouver les correspondances.
Par exemple, si le texte source est :
The cat sat on the mat.
La MT créé des index pour :
The
he
e c
ca
cat
et ainsi de suite.