Tutorial. Control de la segmentació - mtuoc/tutorials GitHub Wiki
Les eines de traducció assistida presenten el text que es traduirà dividit en unitats d'informació que anomenem segments. Aquests segments solen ser oracions. Els segments no han de ser massa llargs perquè si no tindrem menys equivalències aproximades quan usem les nostres memòries de traducció i perdrem eficiència.
Les oracions en la majoria d'idiomes se separen per punts, seguits d’un espai. El problema de la separació d’oracions està en què s’utilitza el punt també en altres instàncies, com per exemple darrere d’una inicial, d’una abreviatura, acrònims, etc.
És important disposar d’un conjunt de regles que permetin segmentar el text origen de la millor manera possible. També és important usar les mateixes regles de segmentació en la creació d’un projecte de traducció que les que es van usar en les memòries de traducció que utilitzarem en el projecte.
La majoria d'eines de traducció assistida permeten especificar les regles de segmentació que utilitzen. Normalment aquestes regles, o bé almenys un subconjunt d’aquestes regles, depenen de l’idioma del text que s’ha de segmentar.
Per a facilitar l'ús i intercanvi de regles de segmentació s'ha creat un format estàndard basat en XML que es diu SRX (Segmentation Rule eXchange).
Autoria del text: Ricardo Cabello Sánchez Autoria del vídeo: Ricardo Cabello Sanchez