Componentes del proyecto - mtuoc/mtuoc.github.io GitHub Wiki

El proyecto MTUOC tiene los siguientes componentes:

  • MTUOC-any2text: Scripts par convertir diversos formatos de archivo a texto.
  • MTUOC-TMX2tabtxt: Scripts y programas para la conversión de archivos TMX a texto separado por tabuladores (tsv).
  • MTUOC-SDLTM2tabtxt: Scripts y programas para la conversión de memorias de traducción de Trados (SDLTM) a archivos de texto separado por tabuladores (tsv).
  • MTUOC-tokenizers: Tokenizadores para diversas lenguas.
  • MTUOC-segmenter: Scripts y programas para segmentar archivos de texto y corpus.
  • MTUOC-aligner: Scripts y programas para la alineación automática de documentos utilizando Hunaign o SBERT.
  • MTUOC-web-downloader: Un conjunto de scripts para descargar un sitio web entero y guardarlo localmente.
  • MTUOC-clean-parallel-corpus: Un script de Python para la limpieza de corpus paralelos.
  • MTUOC-PCorpus-rescorer: Un conjunto de programas para la re-evaluación de corpus paralelos.
  • MTUOC-corpus-combination: Un programa desarrollado en Python para seleccionar segmentos similares de un corpus paralelo de gran tamaño.
  • MTUOC-corpus-preprocessing: Un script MTUOC para preprocesar corpus paralelos para el entrenamiento de sistemas de traducción automática.
  • MTUOC-training-scripts: Scripts y archivos de configuración para entrenar sistemas de traducción automática (Moses, Marian, OpenNMT...)
  • MTUOC-server: Un servidor para poner en marcha sistemas de traducción automática.
  • MTUOC-eval: Un programa fácil de utilizar para la evaluación de sistemas de traducción automática mediante métricas automáticas.
  • PosEdiOn: Un conjunto de programas para llevar a cabo experimentos de traducción y postedición y calcular indicadores de esfuerzo de traducción.
  • MTUOC-translator: Un conjunto de programas para traducir archivos con el servidor MTUOC.
  • MTUOC-editor: En desarrollo
  • MTUOC-novaIEC: Un script sencillo y archivo de datos para convertir textos catalanes de la normativa ortográfica antigua a la nueva. Todos los cambios se han tomado de ORTOGRAFIA Modificacions entrades DIEC2.
  • MTUOC-Trados-plugin: Un plug-in para Trados para utilizar los servidores de traducción automática MTUOC.
  • MTUOC: Archivos y scripts generales del proyecto MTUOC.