Regole di segmentazione

Le regole di segmentazione sono regole di elaborazione della lingua personalizzabili che specificano un segmento, definite tramite espressioni regolari. Spesso, un segmento rappresenta una frase, nel qual caso l'espressione regolare specifica i modelli di testo che la costituiscono.

Le regole di elaborazione della lingua sono specificate nel motore di traduzione per l'intero progetto. Tutte le TM selezionate in un motore di traduzione devono avere la stessa regola di elaborazione della lingua. Se sono necessarie più regole di segmentazione, queste devono essere definite nella stessa regola di elaborazione della lingua.

Interruzione di segmento

La definizione di un'interruzione di segmento è costituita da due parti:

  • Prima dell'interruzione: modello di testo che definisce il testo immediatamente precedente all'interruzione.
  • Dopo l'interruzione: modello di testo che definisce il testo immediatamente successivo all'interruzione.

Un'interruzione di segmento viene creata solo quando il testo corrispondente al modello prima dell'interruzione è seguito immediatamente dal testo corrispondente al modello dopo l'interruzione.

Regole multiple

È possibile impostare una serie di regole di segmentazione, ad esempio una per definire la segmentazione in presenza dei due punti e un'altra in presenza del punto. In qualsiasi progetto, per la stessa combinazione linguistica, è possibile utilizzare più TM (principali) con regole di segmentazione diverse.

Altre risorse di lingua che influiscono sulla segmentazione

  • Elenco delle abbreviazioni - l'elenco contiene abbreviazioni che terminano con un punto (.), ad esempio ecc. il punto alla fine di ecc. non indica necessariamente la fine di una frase, sebbene normalmente è quello che avviene.
  • Elenco degli elementi successivi ai numeri ordinali - Analogamente alle abbreviazioni, gli elementi successivi ai numeri ordinali sono indicativi di casi in cui il punto non indica necessariamente la fine di un segmento: quando seguito da alcuni sostantivi, un insieme di cifre seguito da un punto (ad esempio 23.) indica un ordinale (23°), non la fine di una frase. Ad esempio 23. Aprile può significare 23 aprile.

Regole che specificano eccezioni

L'interruzione di segmento non viene creata anche se il testo soddisfa le regole precedenti, purché corrisponda alle regole di eccezione. Ad esempio, è possibile definire un'eccezione per consentire l'uso di un punto in una frase.

Esempio

La seguente regola viene utilizzata come eccezione alla regola di segmentazione che definisce un segmento delimitato da un punto (punto fermo). Trattandosi di un'eccezione, la TM considera il testo corrispondente a questo modello come equivalente a una sezione di testo che non contiene un'interruzione di segmento, anche se il testo corrisponde anche al modello più generale che definisce un'interruzione di segmento.

Questa regola fornisce una corrispondenza per qualsiasi testo che contenga un punto (eventualmente seguito da un'altra punteggiatura di chiusura), seguito da uno spazio e, quindi, da una lettera minuscola:

Prima dell'interruzione

\.+[\p{Pe}\p{Pf}\p{Po}"]*

Chiudi, finale e altri segni di punteggiatura, sono categorie Unicode definite per i seguenti codici:
  • \p{Pe} specifica la punteggiatura di chiusura.
  • \p{Pf} specifica la punteggiatura con le virgolette finali.
  • \p{Po} specifica altre punteggiature.

Dopo l'interruzione

\s\p{Ll}

Questa espressione regolare corrisponde a uno spazio seguito da una lettera minuscola.

Per ulteriori informazioni sulle categorie Unicode, consultare la documentazione Microsoft.