Componentes del proyecto - mtuoc/mtuoc.github.io GitHub Wiki
El proyecto MTUOC tiene los siguientes componentes:
- MTUOC-any2text: Scripts par convertir diversos formatos de archivo a texto.
- MTUOC-TMX2tabtxt: Scripts y programas para la conversión de archivos TMX a texto separado por tabuladores (tsv).
- MTUOC-SDLTM2tabtxt: Scripts y programas para la conversión de memorias de traducción de Trados (SDLTM) a archivos de texto separado por tabuladores (tsv).
- MTUOC-tokenizers: Tokenizadores para diversas lenguas.
- MTUOC-segmenter: Scripts y programas para segmentar archivos de texto y corpus.
- MTUOC-aligner: Scripts y programas para la alineación automática de documentos utilizando Hunaign o SBERT.
- MTUOC-web-downloader: Un conjunto de scripts para descargar un sitio web entero y guardarlo localmente.
- MTUOC-clean-parallel-corpus: Un script de Python para la limpieza de corpus paralelos.
- MTUOC-PCorpus-rescorer: Un conjunto de programas para la re-evaluación de corpus paralelos.
- MTUOC-corpus-combination: Un programa desarrollado en Python para seleccionar segmentos similares de un corpus paralelo de gran tamaño.
- MTUOC-corpus-preprocessing: Un script MTUOC para preprocesar corpus paralelos para el entrenamiento de sistemas de traducción automática.
- MTUOC-training-scripts: Scripts y archivos de configuración para entrenar sistemas de traducción automática (Moses, Marian, OpenNMT...)
- MTUOC-server: Un servidor para poner en marcha sistemas de traducción automática.
- MTUOC-eval: Un programa fácil de utilizar para la evaluación de sistemas de traducción automática mediante métricas automáticas.
- PosEdiOn: Un conjunto de programas para llevar a cabo experimentos de traducción y postedición y calcular indicadores de esfuerzo de traducción.
- MTUOC-translator: Un conjunto de programas para traducir archivos con el servidor MTUOC.
- MTUOC-editor: En desarrollo
- MTUOC-novaIEC: Un script sencillo y archivo de datos para convertir textos catalanes de la normativa ortográfica antigua a la nueva. Todos los cambios se han tomado de ORTOGRAFIA Modificacions entrades DIEC2.
- MTUOC-Trados-plugin: Un plug-in para Trados para utilizar los servidores de traducción automática MTUOC.
- MTUOC: Archivos y scripts generales del proyecto MTUOC.