Tutorial: evaluación de sistemas de TA con métricas automáticas utilizando Mateo - mtuoc/tutorials GitHub Wiki
1. Introducción
En este tutorial vas a aprender a evaluar sistemas de traducción automática mediante métricas automáticas, utilizando una aplicación en línea llamada Mateo. La evaluación de sistemas con métricas automáticas tiene sus limitaciones y los resultados se deben tomar como indicativos. Normalmente se utilizan para comparar diversos sistemas y ver si alguno de los sistemas es mejor que los otros. Como que cada métrica automática tiene sus ventajas e inconvenientes, es interesante utilizar más de una métrica en cada evaluación.
2. Lecturas recomendadas
En este apartado os recomiendo lecturas sobre Mateo y sobre las métricas automáticas que vamos a utilizar.
Sobre Mateo
Sobre BLEU
Sobre TER
Sobre chrF2
Sobre COMET
#3. Uso de Mateo
Para acceder a Mateo sigue el siguiente enlace: https://mateo.ivdnt.org/Evaluate.
El uso es extremadamente intuitivo y no requiere demasiadas explicaciones. Lo importante es que antes de empezar tienes que disponer de los siguientes archivos (conmsideramos un ejemplo de evaluación de un sistema Apertium eng-spa, pero los nombres de los archivos pueden ser diferentes):
- Referencia (Reference file): es el archivo que contiene la traducción de referencia de los segmentos del archivo de evaluación. (por ejemplo eval.es)
- Original (Source file): es el archivo que contiene el original del conjunto de evaluación) (por ejemplo eval.en)
- Hipótesis (que dependiendo de cuántos sistemas comparéis será System #1 file): la traducción automática con el sistema bajo evaluación (por ejemplo eval.en-Apertium.ca)
Es importante tener en cuenta que podremos tantas hipótesis como sistemas estemos comparando. El número de sistemas a comparar se puede establecer con la opción How many systems do you wish to compare? (max. 4).
3.1. Selección de las métricas
El primer paso consiste en seleccionar las métricas. Se trata símplemente de marcar las métricas que queremos utilizar:
La métrica COMET tarda bastante en calcularse. Os aconsejo probar primero con otras métricas (BLEU, chrF2 y TER) y cuando os funcione todo bien incluir también COMET.
3.2. Evaluación de un único sistema
Después se tienen que subir los archivos de evaluación, utilizando Drag and drop o bien el botón Browse. En la siguiente imagen se puede observar el resultado de subir los archivos (los nombres dependerán de tus archivos concretos):
Una vez subidos los archivos haz clic en el botón Evaluate MT.
Cuando finaliza la evaluación Mateo ofrece los resultados en diversos formatos, entre ellos una tabla como la siguiente:
3.3. Comparación de diversos sistemas
Es interesante comparar diversos sistemas, ya que los valores de las métricas automáticas por sí solos ofrecen poca información. Si dispones del mismo conjunto de evaluación traducido con otro sistema, puedes incluirlo en la evaluaación. Si no, Mateo ofrece la posibilidad de traducir tu conjunto de evaluación con el sistema NLLB.
Para ello ves a Translate en el menú lateral y configura el traductor y sube el archivo a traducir, como en la siguiente imagen:
Ten en cuenta que la traducción puede tardar un buen rato y que aunque la barra de proceso marque el 100%, hasta que la icona RUNNING de la parte superior derecha no se ha detenido, la traducción no ha finalizado y no la puedes descargar. Cuando realmente acaba, aparece lo siguiente:
Descarga el archivo de texto de la traducción y ponlo en el mismo directorio que el conjunto de evaluación. Ahora podemos realizar la comparación de los sistemas.
La selección de métricas es exactamente igual que en el caso de la evaluación de un único sistema.
En cuanto a la selección de archivos, ahora tendremos que indicar 2 en How many systems do you wish to compare? (max. 4) y nos aparecerá la opción de subir dos hipótesis. Una vez todo seleccionado, tendremos algo similar a lo siguiente (con los nombres reales de tus archivos):
Ahora ya podemos hacer clic a Evaluate MT y observar los resultados, que se ofrecen en diversos formatos, entre ellos la tabla:
Fijaros que el sistema traducido por el propio Mateo utilizando el NLLB (con nombre translations) es mucho mejor que Apertium. Era esperable ya que Apertium es un sistema de reglas y NLLB es neuronal.
Sobre la evaluación podéis consultar todos los detalles en la documentación Mateo (las medidas se describen en https://mateo.ivdnt.org/Background. Pero tened en cuenta lo siguiente:
- El primer sistema que pongamos (es decir, el primer archivo de hipótesis) constiuirá el baseline y el resto de sistemas se compararán con este.
- En todos los sistemas menos el primero aparece un valor de significancia estadística (p). Si viene marcado con * quiere decir que la diferencia con el de referencia es estadísticamente significativa.
Ahora no oblidéis probar también la medida COMET, que tardará un buen rato en calcularse.