分節規則

分節規則とは、分節を指定する正規表現によって定義される、カスタマイズ可能な言語処理規則です。多くの場合、分節は文を表し、その場合、正規表現は文を構成するテキストのパターンを指定します。

言語処理規則は、プロジェクト全体の翻訳エンジンで指定されます。翻訳エンジンで選択されたすべての TM が、同じ言語処理規則を持つ必要があります。複数の分節規則が必要な場合は、同じ言語処理規則で定義する必要があります。

分節の分割点

分節の分割点は、次の 2 つの部分で定義されます。

  • 分節の前: 分節が分割される直前のテキスト パターン。
  • 分節の後: 分節が分割される直後のテキストを定義する、もう 1 つのテキスト パターン。

分節が分割されるのは、あるテキストが分節の前のパターンに一致し、その直後に分節の後のパターンに一致するテキストが続く場合だけです。

複数の規則

たとえば、コロンがある箇所で分節を定義する規則と、ピリオドがある箇所を扱うもう 1 つの規則のように、複数の分節規則を持つことができます。1 つのプロジェクトで、同じ言語ペアに対して、分節規則が異なる複数の (メインの) TM を使用できます。

分節化に影響するその他の言語リソース

  • 略語のリスト - このリストには、「etc.」など、ピリオド (.) で終了する略語が含まれています。etc. の末尾のピリオドは、文の末尾のことも、末尾でないこともあります。
  • 序数詞のリスト - 略語と同様に、ピリオドが必ずしも分節の終わりを示さないケースに序数詞があります。数字のセットの後にピリオド (たとえば「23.」) があり、その後に特定の名詞が続く場合は、文の終わりではなく、序数 (23 番目) を表します。たとえば、23.April は、4 月 23 日を表します。

例外を指定する規則

これに加え、テキストがこれらの規則を満たしていても、そのテキストが例外規則にも一致している場合、分節の分割点は作成されません。たとえば、文中でのピリオドの使用に対応する例外を定義することができます。

次の規則は、ピリオド (終止符) で区切られる分節を定義する分節規則の例外として使用されます。これは例外として使用されるので、TM は、このパターンに一致するテキストを、分節分割が含まれていないテキスト部分に一致するものとして処理します。これは、テキストが分節分割を定義する、より汎用的なパターンに一致している場合であっても同様です。

この規則は、ピリオド (他の終了句読点が後に続く場合もあります) の後にスペースが続き、次に小文字が続くすべてのテキストに一致します。

分節の前

\.+[\p{Pe}\p{Pf}\p{Po}"]*

閉じ句読点、終了句読点、およびその他の句読点は、次のコードの定義済みの Unicode カテゴリです。
  • \p{Pe} は、閉じ句読点を規定します。
  • \p{Pf} は、終了引用符句読点を規定します。
  • \p{Po} は、その他の句読点を規定します。

分節の後

\s\p{Ll}

この正規表現は、スペースとそれに続く小文字に一致します。

Unicode カテゴリの詳細については、Microsoft の文書を参照してください。