Speichern von Daten in TM-Übersetzungseinheiten und Token

Die wichtigsten Informationen in einem Translation Memory (TM) enthält der Satz von Ausgangssegmenten und deren Übersetzungen. Jedes Paar von ausgangs- und zielsprachlichen Textsegmenten ist eine sogenannte Übersetzungseinheit (ÜE). Außer bei einem PerfectMatch bestehen in einem TM keine Beziehungen zwischen ÜE. Jede ÜE hat mit ihr verbundene Daten (z. B. Autor). Diese werden als Feld bezeichnet.

Text wird in der Regel wörtlich gespeichert, während andere Textarten wie Datumsangaben normalerweise in Tokenform gespeichert sind. Wenn Text als Token gespeichert ist, kann das TM Ausgangstexte suchen, die im Wesentlichen die gleichen sind, aber unterschiedliche Werte für die Tokens haben – zum Beispiel Sätze, die bis auf Datumsangaben identisch sind.

Text gespeichert als Token

Wenn ein Text als platzierbares Element erkannt wird, speichert ihn das TM in Tokenform. Das Verwenden von Tokens macht es einfach für das TM, eine Übereinstimmung bei den folgenden zwei Segmenten zu finden (vorausgesetzt, das TM erkennt Zahlen als platzierbare Elemente):

Ich kaufte 5 Äpfel. (im TM)

Ich kaufte 10 Äpfel. (im Ausgangstext)

Verwendung von Trigram-Indizes für Konkordanz und nicht zeichenbasierte Sprachen

Für Sprachen, die möglicherweise nicht über Pausen zwischen den Wörtern verfügen, oder für jede Sprache, falls die Konkordanzsuche ausgewählt ist, indiziert das TM alle drei aufeinander folgenden Buchstaben (Trigram oder Tri-Grams) und nutzt diesen Index-Inhalt, um Entsprechungen zu finden.

Beispiel: Bei dem ausgangssprachlichen Satz

The cat sat on the mat.

hat das TM Indizes erstellt für:

The

he

e c

ca

cat

und so weiter.