Tutoriales - mtuoc/DI-Palindromo GitHub Wiki

Corpus paralelos y comparables

Tutorial: corpus paralelos disponibles

Tutorial: Instrucciones de Unix básicas para el tratamiento de corpus textuales

Tutorial: Alineación automática de dos documentos con LF‐Aligner

Tutorial: Alineación automática de documentos con hunalign y MTUOC‐autoaligner

Tutorial: Creación de corpus paralelos a partir de sitios webs

Tutorial: Creación de corpus comparables a partir de la Wikipedia

Entrenamiento de motores de traducción automática neuronal

Tutorial: entrenamiento de motores de traducción automática neuronal con Marian

Hay que tener en cuenta que Marian no es el único toolkit para el entrenamiento de motores de traducción automática neuronal. Hasta hace poco OpenNMT también era muy popular y se utilizaba mucho. PERO este toolkit está descontinuado y, aunque se pueda utilizar, no van a haber más actualizaciones. De OpenNMT ha surgido el proyecto Eole, que también iremos explorando. Por ahora sigue el Get Started instala Eole en un entorno virtual de Python y haz la "receta" wmt17

Si no se entrena con guided alignment y queremos tener un motor que sea capaz de recuperar etiquetas XLM/HTML, será necesario entrenar un modelo de alineación externo. Esto se puede hacer con fast_align, como se explica en el siguiente tutorial:

Tutorial: entrenamiento de modelos de alineación con fast_align para utilizarlos con MTUOC‐server