Antoni Oliver: «Los sistemas de traducción automática que van apareciendo son fiables y logran niveles de calidad muy altos»

9 abril, 2024
Antoni Oliver, experto en traducción automática Antoni Oliver, profesor de la UOC y experto en traducción automática, traducción asistida, extracción de terminología y aprendizaje automático

Antoni Oliver es profesor de los Estudios de Artes y Humanidades en el ámbito de la lingüística computacional y forma parte del Grupo de Investigación Interuniversitario en Aplicaciones Lingüísticas (GRIAL). Experto en traducción automática, traducción asistida, extracción de terminología y aprendizaje automático, en esta entrevista hace un repaso del pasado, presente y futuro de las tecnologías de traducción y de cómo se aborda la docencia y la investigación en este campo en la UOC.

Toni, tú que tienes una larga trayectoria en el mundo de la traducción automática, ¿qué evoluciones has visto en este campo desde que empezaste a trabajar en él?

El cambio principal es el paso de los paradigmas basados en reglas a los estadísticos, primero, y a los neuronales, después. Este segundo paso hacia los sistemas neuronales, que se enmarcan en técnicas de inteligencia artificial, ha representado una mejora muy espectacular en calidad. Otro factor importante es que muchos conjuntos de herramientas de traducción automática se distribuyen con licencias libres. Esto ha hecho avanzar mucho la investigación en traducción automática y ha permitido que muchos investigadores, instituciones y empresas puedan acceder fácilmente.

¿En qué punto está ahora mismo esta tecnología?

La tecnología de traducción automática neuronal, en cuanto al aspecto técnico, está muy madura y es plenamente operativa. Esto no significa que no queden aspectos de mejora, que quedan, pero la mejora en calidad tiene que ir acompañada de una mejora de los recursos lingüísticos para el entrenamiento. Tanto los sistemas estadísticos como los neuronales se entrenan a partir de grandes corpus paralelos, es decir, grandes repositorios de segmentos u oraciones en una lengua con la traducción a otra lengua. La disponibilidad y la calidad de estos corpus limitan el entrenamiento de sistemas.

¿Qué retos será necesario afrontar en el futuro? ¿ChatGPT representa un cambio de paradigma para la traducción automática?

Los retos actuales en este ámbito son diversos. En primer lugar, mejorar las técnicas para el entrenamiento de sistemas de traducción automática para pares de lenguas y especialidades con pocos recursos. Hay muchos esfuerzos también en el entrenamiento de sistemas para textos creativos, como pueden ser los textos literarios. A la vez, se está trabajando en traducción automática a escala de documento, es decir, en sistemas que tengan en cuenta el contexto.

Los grandes modelos de lenguaje generativos (la tecnología en la que se basa ChatGPT, por ejemplo) usan una metodología casi idéntica a la de los sistemas de traducción automática neuronal. ChatGPT también puede traducir textos, y, aunque no está evaluado a fondo, las primeras evaluaciones serias publicadas parecen indicar que logra una precisión inferior a los sistemas neuronales tradicionales, pero, en cambio, un nivel superior de cohesión de todo el texto. Por lo tanto, no creo realmente que suponga un cambio de paradigma importante, sino que habrá un tipo de integración o simbiosis entre ambos sistemas. Pronto empezaremos a ver todos estos cambios.

¿Cómo se aborda la enseñanza sobre traducción automática en el grado de Traducción, Interpretación y Lenguas Aplicadas y el máster universitario de Traducción y Tecnologías de la UOC?

Tanto en el grado como en el máster enfocamos el estudio de la traducción automática desde un punto eminentemente práctico y muy técnico. Esto nos diferencia claramente del resto de universidades. Los estudiantes, además de aprender a usar (y, más importante todavía, valorar) los sistemas comerciales más habituales, como Google Traductor o DeepL, tienen la oportunidad de aprender a entrenar y poner en marcha sistemas neuronales. Pueden aprender a compilar y preprocesar los corpus necesarios para el entrenamiento y entrenar y evaluar el sistema. No es que todas estas tareas sean obligatorias para todo el mundo, pero sí que, mediante diferentes asignaturas e itinerarios dentro de las asignaturas, pueden llegar a hacer todas estas tareas de una forma práctica. Además, varios estudiantes han hecho sus trabajos finales sobre entrenamiento y evaluación de sistemas de traducción automática o creación de motores de traducción.

¿Cuáles son las líneas de investigación que se están desarrollando en la UOC?

Desde el grupo de investigación GRIAL tenemos las siguientes líneas de investigación activas: i) traducción automática neuronal para pares de lenguas con pocos recursos; ii) traducción automática neuronal para obras literarias, y iii) evaluación humana de sistemas de traducción automática mediante experimentos de posedición, que es la tarea de revisar una traducción automática.

  • En el primero de los ámbitos estamos trabajando en el proyecto TAN-IBE, «Traducción automática neuronal para las lenguas románicas de la península Ibérica», en el que entrenamos sistemas poniendo una especial atención en el asturiano, el aragonés y el aranés.

  • En el segundo estamos explorando el uso de la traducción para uno de los ámbitos que permanecían todavía fuera de su uso: las obras literarias y otros textos creativos. También estamos empezando a usar traducción automática neuronal para crear libros electrónicos bilingües.

  • En el tercer ámbito hemos diseñado una herramienta llamada PosEdiOn que permite llevar a cabo experimentos para evaluar sistemas de traducción automática. Ahora estamos ampliando las funciones de esta herramienta para que pueda servir como un entorno sencillo para traducir y poseditar proyectos.

Es importante mencionar que nuestra investigación en este ámbito ha generado numerosos proyectos de transferencia con empresas e instituciones.

¿Consideras que los sistemas de traducción automática son cada vez más fiables?

Sí. En general, todos los sistemas de traducción automática que van apareciendo son fiables y logran niveles de calidad muy altos. La mayoría de los nuevos motores son de base neuronal. Esto implica que la traducción de salida es muy fluida y tiene la apariencia de totalmente correcta. A pesar de todo, de vez en cuando producen errores que son difíciles de detectar, pero que pueden ser relevantes y afectar al significado de la oración traducida. Por este motivo, es muy importante que los usuarios conozcan las ventajas de estos sistemas, pero también sus limitaciones. Y también hay que recordar que para producir traducciones de calidad publicable siempre es imprescindible revisar la traducción que ha generado la herramienta.

(Visited 164 times, 1 visits today)
Comentarios
Deja un comentario