Tutorial: evaluación de sistemas de TA con métricas automáticas utilizando Mateo - mtuoc/tutorials GitHub Wiki

1. Introducción

En este tutorial vas a aprender a evaluar sistemas de traducción automática mediante métricas automáticas, utilizando una aplicación en línea llamada Mateo. La evaluación de sistemas con métricas automáticas tiene sus limitaciones y los resultados se deben tomar como indicativos. Normalmente se utilizan para comparar diversos sistemas y ver si alguno de los sistemas es mejor que los otros. Como que cada métrica automática tiene sus ventajas e inconvenientes, es interesante utilizar más de una métrica en cada evaluación.

2. Lecturas recomendadas

En este apartado os recomiendo lecturas sobre Mateo y sobre las métricas automáticas que vamos a utilizar.

Sobre Mateo

Vanroy, B., Tezcan, A., & Macken, L. (2023). MATEO: MAchine Translation Evaluation Online. In M. Nurminen, J. Brenner, M. Koponen, S. Latomaa, M. Mikhailov, F. Schierl, … H. Moniz (Eds.), Proceedings of the 24th Annual Conference of the European Association for Machine Translation (pp. 499–500). Tampere, Finland: European Association for Machine Translation (EAMT)..

Sobre BLEU

Papineni, K., Roukos, S., Ward, T., & Zhu, W. J. (2002, July). Bleu: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting of the Association for Computational Linguistics (pp. 311-318).

Sobre TER

Snover, M., Dorr, B., Schwartz, R., Micciulla, L., & Makhoul, J. (2006). A study of translation edit rate with targeted human annotation. In Proceedings of the 7th Conference of the Association for Machine Translation in the Americas: Technical Papers (pp. 223-231).

Sobre chrF2

Popović, M. (2017, September). chrF++: words helping character n-grams. In Proceedings of the second conference on machine translation (pp. 612-618).

Sobre COMET

Rei, R., Stewart, C., Farinha, A. C., & Lavie, A. (2020, November). COMET: A Neural Framework for MT Evaluation. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP) (pp. 2685-2702).

#3. Uso de Mateo

Para acceder a Mateo sigue el siguiente enlace: https://mateo.ivdnt.org/Evaluate.

El uso es extremadamente intuitivo y no requiere demasiadas explicaciones. Lo importante es que antes de empezar tienes que disponer de los siguientes archivos (conmsideramos un ejemplo de evaluación de un sistema Apertium eng-spa, pero los nombres de los archivos pueden ser diferentes):

  • Referencia (Reference file): es el archivo que contiene la traducción de referencia de los segmentos del archivo de evaluación. (por ejemplo eval.es)
  • Original (Source file): es el archivo que contiene el original del conjunto de evaluación) (por ejemplo eval.en)
  • Hipótesis (que dependiendo de cuántos sistemas comparéis será System #1 file): la traducción automática con el sistema bajo evaluación (por ejemplo eval.en-Apertium.ca)

Es importante tener en cuenta que podremos tantas hipótesis como sistemas estemos comparando. El número de sistemas a comparar se puede establecer con la opción How many systems do you wish to compare? (max. 4).

3.1. Selección de las métricas

El primer paso consiste en seleccionar las métricas. Se trata símplemente de marcar las métricas que queremos utilizar:

La métrica COMET tarda bastante en calcularse. Os aconsejo probar primero con otras métricas (BLEU, chrF2 y TER) y cuando os funcione todo bien incluir también COMET.

3.2. Evaluación de un único sistema

Después se tienen que subir los archivos de evaluación, utilizando Drag and drop o bien el botón Browse. En la siguiente imagen se puede observar el resultado de subir los archivos (los nombres dependerán de tus archivos concretos):

Una vez subidos los archivos haz clic en el botón Evaluate MT.

Cuando finaliza la evaluación Mateo ofrece los resultados en diversos formatos, entre ellos una tabla como la siguiente:

3.3. Comparación de diversos sistemas

Es interesante comparar diversos sistemas, ya que los valores de las métricas automáticas por sí solos ofrecen poca información. Si dispones del mismo conjunto de evaluación traducido con otro sistema, puedes incluirlo en la evaluaación. Si no, Mateo ofrece la posibilidad de traducir tu conjunto de evaluación con el sistema NLLB.

Para ello ves a Translate en el menú lateral y configura el traductor y sube el archivo a traducir, como en la siguiente imagen:

Ten en cuenta que la traducción puede tardar un buen rato y que aunque la barra de proceso marque el 100%, hasta que la icona RUNNING de la parte superior derecha no se ha detenido, la traducción no ha finalizado y no la puedes descargar. Cuando realmente acaba, aparece lo siguiente:

Descarga el archivo de texto de la traducción y ponlo en el mismo directorio que el conjunto de evaluación. Ahora podemos realizar la comparación de los sistemas.

La selección de métricas es exactamente igual que en el caso de la evaluación de un único sistema.

En cuanto a la selección de archivos, ahora tendremos que indicar 2 en How many systems do you wish to compare? (max. 4) y nos aparecerá la opción de subir dos hipótesis. Una vez todo seleccionado, tendremos algo similar a lo siguiente (con los nombres reales de tus archivos):

Ahora ya podemos hacer clic a Evaluate MT y observar los resultados, que se ofrecen en diversos formatos, entre ellos la tabla:

Fijaros que el sistema traducido por el propio Mateo utilizando el NLLB (con nombre translations) es mucho mejor que Apertium. Era esperable ya que Apertium es un sistema de reglas y NLLB es neuronal.

Sobre la evaluación podéis consultar todos los detalles en la documentación Mateo (las medidas se describen en https://mateo.ivdnt.org/Background. Pero tened en cuenta lo siguiente:

  • El primer sistema que pongamos (es decir, el primer archivo de hipótesis) constiuirá el baseline y el resto de sistemas se compararán con este.
  • En todos los sistemas menos el primero aparece un valor de significancia estadística (p). Si viene marcado con * quiere decir que la diferencia con el de referencia es estadísticamente significativa.

Ahora no oblidéis probar también la medida COMET, que tardará un buen rato en calcularse.