分節とトークン化
Trados Studio で原文ファイルがどのように分節化され、トークン化されるかを理解すれば、TM を効果的に使用できます。ファイルを開くと、そのファイルの種類用の設定を使用して初期の分節化が実行されます。次に、(ファイルの種類の設定を一部考慮しながら) TM の分節規則を使用して、さらに分節化を進めます。
このソフトウェアは TM (または、TM シーケンスを使用する場合は、シーケンス内の最初の TM) の分節規則を使用します。分節化の後、該当する場合、このソフトウェアは TM の設定を使用して、テキストをトークンに置換します (トークン化)。
段落の分節化
Trados Studio でファイルを開くと、ファイルの種類の設定に指定されている規則を使用して、ファイルが段落に分割されます。段落は、ファイルの種類ごとに異なる規則で区切られます。たとえば、単純区切り形式テキスト ファイルでは改行文字で段落が導入されますが、HTML ファイルでは <p> などのタグで段落が導入され、改行文字はスペースと同等の空白文字になります。タグを使用するファイルの種類 (たとえば HTML や XML) を使用する場合は、あるタグを、段落を区切ることを示す「構造」タグにするように指定することができます。
文の分節化
分節規則は TM のプロパティです (言語リソースの下)。段落に基づく分節化も指定できます。この場合、Trados Studio はそれ以上の分節化を実行しません。ただし、通常は文に基づく分節化を指定します。この場合、分節規則を使用して、段落が分節に分割されます。
分節規則は、文の末尾を示す文字のパターンを認識する正規表現です。例: ピリオドの次に空白文字が来た場合、通常は文末を示します。
このソフトウェアが段落を分節化する場合、次の設定も考慮します。
- 略語と序数詞が認識されたかどうか。認識された場合は、一部の分節にピリオドが含まれることがあります(この認識は TM 言語リソースのプロパティです)。
- 分節化のヒント。分節化のヒントは、このソフトウェアがタグを分節の分割 (「除外」) の指示と見なすか、タグを分節内に含むか (「含める」) を指定します。分節化のヒントは、タグに対するファイルの種類の設定です。
文の分節化によって生成される分節は、翻訳者がエディタで目にする分節です。このソフトウェアは、各分節を TM 内の翻訳単位と比較して、一致があるかどうかを調べます。
トークン化
トークン化は、分節化の後の段階です。このソフトウェアは、分節の一致を検索するときに、分節をトークンに分割します。TM 内では、テキストは複数のトークンとして格納されます。
何がトークンと見なされるかは、TM の設定で決まります。たとえば、TM が日付を固定要素として処理する場合、12 January 1900 は 1 つのトークンとして処理されますが、固定要素として認識されない場合は、次の 3 つのトークンとして処理されます: 12、January、1900。
提示されたテキストの分節が固定要素を含む場合、TM では、実際の語の連なりでなく、パターンに基づいて一致を検出することがあります。たとえば、日付が固定要素として認識される場合、次の分節は同一なものとして処理されます。
He arrived on 1 January 1900
He arrived on 2 February 2012
トークンと見なすテキスト パターンは TM の設定で指定しますが、翻訳エディタが固定要素を処理する方法 (たとえば日付を自動的にローカライズするかどうか) は、TM の設定ではなくプロジェクトの設定に依存します。