Regole di segmentazione
Le regole di segmentazione sono regole di elaborazione della lingua personalizzabili che specificano un segmento, definite tramite espressioni regolari. Spesso, un segmento rappresenta una frase, nel qual caso l'espressione regolare specifica i modelli di testo che la costituiscono.
Le regole di elaborazione della lingua sono specificate nel motore di traduzione per l'intero progetto. Tutte le TM selezionate in un motore di traduzione devono avere la stessa regola di elaborazione della lingua. Se sono necessarie più regole di segmentazione, queste devono essere definite nella stessa regola di elaborazione della lingua.
Interruzione di segmento
La definizione di un'interruzione di segmento è costituita da due parti:
- Prima dell'interruzione: modello di testo che definisce il testo immediatamente precedente all'interruzione.
- Dopo l'interruzione: modello di testo che definisce il testo immediatamente successivo all'interruzione.
Un'interruzione di segmento viene creata solo quando il testo corrispondente al modello prima dell'interruzione è seguito immediatamente dal testo corrispondente al modello dopo l'interruzione.
Regole multiple
È possibile impostare una serie di regole di segmentazione, ad esempio una per definire la segmentazione in presenza dei due punti e un'altra in presenza del punto. In qualsiasi progetto, per la stessa combinazione linguistica, è possibile utilizzare più TM (principali) con regole di segmentazione diverse.
Altre risorse di lingua che influiscono sulla segmentazione
- Elenco delle abbreviazioni - l'elenco contiene abbreviazioni che terminano con un punto (.), ad esempio ecc. il punto alla fine di ecc. non indica necessariamente la fine di una frase, sebbene normalmente è quello che avviene.
- Elenco degli elementi successivi ai numeri ordinali - Analogamente alle abbreviazioni, gli elementi successivi ai numeri ordinali sono indicativi di casi in cui il punto non indica necessariamente la fine di un segmento: quando seguito da alcuni sostantivi, un insieme di cifre seguito da un punto (ad esempio 23.) indica un ordinale (23°), non la fine di una frase. Ad esempio 23. Aprile può significare 23 aprile.
Regole che specificano eccezioni
Esempio
La seguente regola viene utilizzata come eccezione alla regola di segmentazione che definisce un segmento delimitato da un punto (punto fermo). Trattandosi di un'eccezione, la TM considera il testo corrispondente a questo modello come equivalente a una sezione di testo che non contiene un'interruzione di segmento, anche se il testo corrisponde anche al modello più generale che definisce un'interruzione di segmento.
Questa regola fornisce una corrispondenza per qualsiasi testo che contenga un punto (eventualmente seguito da un'altra punteggiatura di chiusura), seguito da uno spazio e, quindi, da una lettera minuscola:
Prima dell'interruzione
\.+[\p{Pe}\p{Pf}\p{Po}"]*
\p{Pe}specifica la punteggiatura di chiusura.\p{Pf}specifica la punteggiatura con le virgolette finali.\p{Po}specifica altre punteggiature.
Dopo l'interruzione
\s\p{Ll}
Questa espressione regolare corrisponde a uno spazio seguito da una lettera minuscola.
Per ulteriori informazioni sulle categorie Unicode, consultare la documentazione Microsoft.