Der SRX-Segmenter

Laden des Segmenters

Die Segmentierung von Texten auf Satzebene wird über ein zusätzliches Add-in, dem SRX Segmenter Add-in, durchgeführt. Zum Laden des SRX Segmenter Add-Ins wählen Sie Extras > Add-Ins aus und klicken Sie auf die Registerkarte Parser. Die Liste der Parser enthält (unter Segmenter) einen Eintrag für das SRX Segmenter Add-in. Es wird empfohlen, den Starttyp auf Bei Gebrauch laden einzustellen. Weitere Informationen zum Umgang mit Add-ins finden Sie unter Konfiguration von Add-Ins.

Sollte das Add-In noch nicht geladen sein (das Feld Status ist dann leer), können Sie es mit einem Klick auf Add-In laden (neu) laden.

Erstellen von Segmentierungsregeln

Um die Einstellungen des Segmenters aufzurufen, klicken Sie auf Einstellungen. In diesem Dialogfeld des Segmenters haben Sie die Möglichkeit, Regeln und Einstellungen zum Segmentieren von Texten auf Satzebene zu prüfen und zu ändern sowie neue Regeln hinzuzufügen. Außerdem können Sie die aktuellen Regeln als Datei speichern, gespeicherte Regeldateien laden und die aktuellen Regeln mit den Regeln aus einer Datei zusammenführen.

Die Regeln des Segmenters basieren auf dem SRX-Standard (Segmentation Rules eXchange). SRX ist ein spezielles XML-Format, das der Definition von Regeln und Methoden der Textsegmentierung dient.

SRX unterscheidet zwei Hauptelemente:

  • – Sie geben die für eine Sprache geltenden Segmentierungsregeln an.
  • – Sie bestimmen die Zuweisung der definierten Sprachregeln zu bestimmten Sprachen, wobei SDL Passolo Regeln stets gemäß der Zuordnungsregel „Standard“ zuweist.

Die Segmentierungsregeln werden flexibel mithilfe regulärer Ausdrücke festgelegt. Für jede Regel können drei verschiedene Einstellungen festgelegt werden:

  • Trennung – Mit dieser Einstellung legen Sie fest, ob die beschriebene Segmentierungsregel zu einer Segmentierung (Trennung) führt oder eine ansonsten auftretende Segmentierung unterdrückt.
  • Vor Trennung – Geben Sie in dieses Feld die Zeichenkette (reguläre Ausdrücke) ein, die vor der Segmentierung (oder unterdrückten Segmentierung) steht.
  • Vor Trennung – Geben Sie in dieses Feld die Zeichenkette (reguläre Ausdrücke) ein, die vor der Segmentierung (oder unterdrückten Segmentierung) steht.

Beispiele erzwungener und unterdrückter Segmentierung:

  • Von einem Leerzeichen gefolgte Punkte, Fragezeichen und Ausrufezeichen führen zu einer Segmentierung. Diese Regel wird mit den folgenden Einstellungen ausgedrückt: – Trennung: aktiviert – Vor Trennung: [\.\?!]+ – Nach Trennung: \s
  • Abkürzungen wie „etc. “ (mit Punkt und Leerzeichen) führen nicht zu einer Segmentierung, sondern unterdrücken (da die Option „Trennung“ deaktiviert ist) eine andernfalls eintretende Segmentierung (Punkt gefolgt von einem Leerzeichen, siehe oben). Diese Regel wird mit den folgenden Einstellungen ausgedrückt: – Trennung: deaktiviert – Vor Trennung: [Ee][Tt][Cc]\. Nach Trennung:

Menüfunktionen im Segmenter-Dialogfeld

Im Dateimenü stehen die folgenden Funktionen zur Auswahl.

Sprachregeln zusammenfügen – führt die in einer gespeicherten SRX-Datei enthaltenen Regeln mit den derzeit aktiven Regeln zusammen.

Vorschaudaten laden – öffnet eine TXT-Datei, sodass Sie die aktuellen Segmentierungsregeln basierend auf dem Inhalt der ausgewählten Datei prüfen können. Der Text wird zunächst in das mittlere Feld auf der rechten Seite geladen. Durch Klicken auf Segmentierung testen werden im unteren Feld die Ergebnisse der Segmentierung des vorgegebenen Texts gemäß den aktuellen Regeln angezeigt.

Zudem können nach einem Rechtsklick auf eine oder mehrere (zuvor ausgewählte) Regeln die folgenden Funktonen aus dem Kontextmenü ausgewählt werden.

Regeln kopieren – kopiert die ausgewählte(n) Regel(n) in die Zwischenablage.

Regeln einfügen – fügt die Regel(n) aus der Zwischenablage ein.

Regeln löschen – löscht die ausgewählte(n) Regel(n).

Regel nach oben bewegen – verschiebt die ausgewählte(n) Regel(n) nach oben.

Regel nach oben bewegen – verschiebt die ausgewählte(n) Regel(n) nach oben.

Beachten Sie, dass diese Funktionen nur dann zur Verfügung stehen, wenn sie bezüglich des ausgewählten Eintrags und der aktuellen Position im Regelbaum zulässig sind.

Schaltflächen des „Segmenter“-Dialogfelds

Neue Sprachregel – legt einen neuen Sprachregelordner unter dem Element <languagerules> an. Diese Funktion steht nur dann zur Verfügung, wenn das Element <languagerules> oder einer seiner untergeordneten Sprachregelordner ausgewählt ist.

Neue Regel – legt eine neue Regel innerhalb des aktuellen Sprachregelordners an. Diese Funktion steht nur dann zur Verfügung, wenn ein Sprachregelordner oder eine seiner untergeordneten Regeln ausgewählt ist.

Neue Zuordnungsregel – legt einen neuen Ordner unter dem Element <maprules> an. Diese Funktion steht nur dann zur Verfügung, wenn das Element <maprules> oder einer seiner untergeordneten Zuordnungsregelordner ausgewählt ist.

Neue Sprachzuordnung – erstellt eine neue Zuordnungsregel innerhalb des aktuell ausgewählten Zuordnungsregelordners. Diese Funktion steht nur dann zur Verfügung, wenn ein Zuordnungsregelordner oder eine seiner untergeordneten Zuordnungsregeln ausgewählt ist.

Segmentierung testen – zeigt die Ergebnisse der aktuellen Segmentierungsregeln an, die auf den im mittleren Feld enthaltenen Text angewendet werden. Das Ergebnis wird im unteren Feld ausgegeben. Segmentierungen sind durch einen blau-gelben Marker gekennzeichnet, während der Marker für unterdrückte Segmentierungen einfarbig blau ist.