Antoni Oliver: “Els sistemes de traducció automàtica que van apareixent són fiables i assoleixen nivells de qualitat molt alts”

9 abril, 2024
Antoni Oliver, expert en traducció automàtica de la UOC Antoni Oliver, professor de la UOC i expert en traducció automàtica, extracció de terminologia i aprenentatge automàtic

Antoni Oliver és professor dels Estudis d’Arts i Humanitats en l’àmbit de la lingüística computacional i forma part del Grup de Recerca Interuniversitari en Aplicacions Lingüístiques (GRIAL). Expert en traducció automàtica, traducció assistida, extracció de terminologia i aprenentatge automàtic, en aquesta entrevista fa un repàs del passat, present i futur de les tecnologies de traducció i de com s’aborda la docència i la recerca en aquest camp a la UOC.

Toni, comptes amb una llarga trajectòria en el món de la traducció automàtica: quines evolucions has vist en aquest camp des que hi vas començar a treballar?

El canvi principal és el pas dels paradigmes basats en regles als estadístics, primer, i als neuronals, després. Aquest segon pas cap als sistemes neuronals, que s’emmarquen en tècniques d’intel·ligència artificial, ha representat una millora molt espectacular en qualitat. Un altre factor important és que molts jocs d’eines de traducció automàtica es distribueixen amb llicències lliures. Això ha fet avançar molt la recerca en traducció automàtica i ha permès que molts investigadors, institucions i empreses puguin accedir-hi fàcilment.

En quin punt està ara mateix aquesta tecnologia?

La tecnologia de traducció automàtica neuronal, pel que fa a l’aspecte tècnic, està molt madura i és plenament operativa. Això no vol dir que no quedin aspectes de millora, que en queden, però la millora en qualitat ha d’anar acompanyada d’una millora dels recursos lingüístics per a l’entrenament. Tant els sistemes estadístics com els neuronals s’entrenen a partir de grans corpus paral·lels, és a dir, grans repositoris de segments o oracions en una llengua amb la traducció a una altra llengua. La disponibilitat i la qualitat d’aquests corpus limiten l’entrenament de sistemes.

Quins reptes caldrà encarar en el futur? El ChatGPT representa un canvi de paradigma per a la traducció automàtica?

Els reptes actuals en aquest àmbit són diversos. En primer lloc, millorar les tècniques per a l’entrenament de sistemes de traducció automàtica per a parells de llengües i especialitats amb pocs recursos. Hi ha molts esforços també en l’entrenament de sistemes per a textos creatius, com poden ser els textos literaris. Alhora, s’està treballant en traducció automàtica a escala de document, és a dir, en sistemes que tinguin en compte el context.

Els grans models de llenguatge generatius (la tecnologia en què es basa el ChatGPT, per exemple) fan servir una metodologia gairebé idèntica a la dels sistemes de traducció automàtica neuronal. ChatGPT també pot traduir textos, i, encara que no està avaluat a fons, les primeres avaluacions serioses publicades semblen indicar que assoleix una precisió inferior als sistemes neuronals tradicionals, però, en canvi, un nivell superior de cohesió de tot el text. Per tant, no crec realment que suposi un canvi de paradigma important, sinó que hi haurà una mena d’integració o simbiosi entre els dos sistemes. Aviat començarem a veure tots aquests canvis.

Com s’aborda l’ensenyament sobre traducció automàtica al grau de Traducció, Interpretació i Llengües Aplicades i el màster universitari de Traducció i Tecnologies de la UOC?

Tant en el grau com en el màster enfoquem l’estudi de la traducció automàtica des d’un punt eminentment pràctic i molt tècnic. Això ens diferencia clarament de la resta d’universitats. Els estudiants, a més d’aprendre a fer servir (i, més important encara, valorar) els sistemes comercials més habituals, com Google Traductor o DeepL, tenen l’oportunitat d’aprendre a entrenar i posar en marxa sistemes neuronals. Poden aprendre a compilar i preprocessar els corpus necessaris per a l’entrenament i entrenar i avaluar el sistema. No és que totes aquestes tasques siguin obligatòries per a tothom, però sí que, mitjançant diferents assignatures i itineraris dins de les assignatures, poden arribar a fer totes aquestes tasques d’una manera pràctica. A més, diversos estudiants han fet els seus treballs finals sobre entrenament i avaluació de sistemes de traducció automàtica o creació de motors de traducció.

Quines són les línies de recerca que s’estan desenvolupant a la UOC?

Pel que fa a la traducció automàtica, des del grup de recerca GRIAL tenim les següents línies de recerca actives: i) traducció automàtica neuronal per a parells de llengües amb pocs recursos; ii) traducció automàtica neuronal per a obres literàries, i iii) avaluació humana de sistemes de traducció automàtica mitjançant experiments de postedició, que és la tasca de revisar una traducció automàtica.

  • En el primer dels àmbits estem treballant en el projecte TAN-IBE, “Traducció automàtica neuronal per a les llengües romàniques de la península Ibèrica”, en què entrenem sistemes posant una especial atenció a l’asturià, l’aragonès i l’aranès.
  • En el segon estem explorant l’ús de la traducció per a un dels àmbits que romanien encara fora del seu ús: les obres literàries i altres textos creatius. També estem començant a fer servir traducció automàtica neuronal per crear llibres electrònics bilingües.

  • En el tercer àmbit hem dissenyat una eina anomenada PosEdiOn que permet dur a terme experiments per avaluar sistemes de traducció automàtica. Ara estem ampliant les funcions d’aquesta eina perquè pugui servir com un entorn senzill per traduir i posteditar projectes.

És important esmentar que la nostra recerca en aquest àmbit ha generat nombrosos projectes de transferència amb empreses i institucions.

Consideres que els sistemes de traducció automàtica són eines cada vegada més fiables?

Sí. En general, tots aquests que van apareixent són fiables i assoleixen nivells de qualitat molt alts. La majoria dels nous motors són de base neuronal. Això implica que la traducció de sortida és molt fluida i té l’aparença de totalment correcta. Malgrat tot, de tant en tant produeixen errors que són difícils de detectar, però que poden ser rellevants i afectar el significat de l’oració traduïda. Per aquest motiu, és molt important que els usuaris coneguin els avantatges d’aquests sistemes, però també les seves limitacions. I també cal recordar que per produir traduccions de qualitat publicable sempre és imprescindible revisar la traducció que ha generat l’eina.

(Visited 58 times, 1 visits today)
Comentaris
Deixa un comentari