Tutorial. Segmentierungskontrolle - mtuoc/tutorials GitHub Wiki

Computergestützte Übersetzungstools zeigen den zu übersetzenden Text in einzelne Informationseinheiten unterteilt an, die wir als Segmente bezeichnen. Diese Segmente sind in der Regel Sätze. Die Segmente sollten nicht zu lang sein, da wir sonst weniger ungefähre Entsprechungen haben, wenn wir unsere Übersetzungsspeicher verwenden, und an Effizienz einbüßen.

Sätze werden in den meisten Sprachen durch Punkte getrennt, gefolgt von einem Leerzeichen. Das Problem bei der Trennung von Sätzen besteht darin, dass der Punkt auch in anderen Fällen verwendet wird, wie beispielsweise hinter einem Initial, einer Abkürzung, Akronymen usw.

Es ist wichtig, über eine Reihe von Regeln zu verfügen, die eine bestmögliche Segmentierung des Ausgangstextes ermöglichen. Es ist auch wichtig, bei der Erstellung eines Übersetzungsprojekts dieselben Segmentierungsregeln zu verwenden wie in den Translation Memories, die wir für das Projekt verwenden werden.

Die meisten Übersetzungstools ermöglichen es, die verwendeten Segmentierungsregeln festzulegen. Normalerweise hängen diese Regeln oder zumindest ein Teil davon von der Sprache des zu segmentierenden Textes ab.

Um die Verwendung und den Austausch von Segmentierungsregeln zu vereinfachen, wurde ein XML-basiertes Standardformat namens SRX (Segmentation Rule eXchange) entwickelt.

Video

Autor des Textes: Ricardo Cabello Sánchez

Autor des Videos: Ricardo Cabello Sanchez