Més enllà de ChatGPT: una mirada a les virtuts i els perills dels models de llenguatge extensos

18/01/2024
Modelos de lenguaje: virtudes y peligros Imagen de Freepik.

Els models de llenguatge extensos, com ChatGPT, han revolucionat la manera com les màquines comprenen i generen textos de manera natural, un avenç amb implicacions profundes en el futur de l’educació i el treball. Andreas Kaltenbrunner, investigador líder del grup de recerca AI and Data for Society (AID4So), de l’Internet Interdisciplinary Institute (IN3) de la Universitat Oberta de Catalunya (UOC), va oferir, en el marc de la 4a Fira Virtual d’Ocupació de la UOC, una extensa panoràmica sobre aquesta tecnologia que és tan prometedora. 

Amb el títol “LLMs (ChatGPT and others): understading how they work and the changes they can bring, la seva conferència va recórrer les característiques, els punts forts i els perills potencials d’aquests models, però també estratègies per mitigar-ne les febleses i emprar-los de manera responsable: “l’ús d’aquests models de llenguatge extensos s’ha de fer d’una manera col·laborativa, en la qual algorismes i humans treballin junts amb la supervisió d’aquests darrers”, va resumir l’investigador sobre aquest progrés tecnològic que ja impacta amb força en molts sectors de la nostra societat.

Un model per comprendre i generar el llenguatge

Un any després del llançament de ChatGPT —el model de llenguatge extens (LLM, per la sigla de large language model) més popular—, aquesta tecnologia ha acaparat notícies i converses, però què és exactament i com funciona? “Es tracta d’un model probabilístic de llenguatge natural l’aplicació del qual és la comprensió i la generació de llenguatge. S’entrena amb una quantitat massiva de dades, és a dir, tot internet o fins i tot més, per la qual cosa té milers de milions de paràmetres que s’han d’ajustar perquè funcioni”, va resumir Andreas Kaltenbrunner en l’inici de la seva conferència. 

L’investigador de la UOC va voler aclarir des del principi que ChatGPT, que prové d’una classe de model de llenguatge propietat de l’empresa OpenAI, ara controlat per Microsoft, no és l’únic exemple d’aquesta tecnologia: “Hi ha altres models competidors, com LaMDA, desenvolupat per Google i utilitzat a Bard, el xat del motor de cerca de Google; LLaMa, desenvolupat per la companyia paraigua de Facebook Meta AI, la versió de codi obert del qual és Lama 2; o Claude, propietat d’Anthropic, un sistema creat amb més atenció als biaixos”. Kaltenbrunner també va esmentar BERT, un altre sistema desenvolupat per Google, que “té l’avantatge que no és tan intensiu en recursos, per la qual cosa es pot executar en màquines pròpies, servidors o fins i tot en ordinadors portàtils en algunes variants”.

Predir paraules a partir de quantitats ingents de textos

Un component clau de la tecnologia són els models de llenguatge —no han de ser extensos forçosament—, que tenen la capacitat de modelar la distribució de probabilitat d’una seqüència de paraules. “Un model de llenguatge simple és el que tenim en els nostres telèfons mòbils intel·ligents quan escrivim: bàsicament, el que fem és predir, donada certa quantitat de text escrit, quina és la continuació probable d’aquest text, és a dir, la paraula següent”, va explicar l’investigador de la UOC.

Per poder fer aquesta predicció, el procés d’aprenentatge de la tecnologia consisteix a “alimentar aquests models amb una gran quantitat de textos i desenvolupar una tasca amb la qual la màquina pot aprendre”, va detallar. Per exemple, es pren una oració i partint de les dues primeres paraules (finestra inicial) se li demana que predigui la tercera. Aquest procés es repeteix moltes vegades desplaçant la finestra inicial, és a dir, les dues paraules inicials passarien a la segona i la tercera, i després a la tercera i la quarta paraula, i així progressivament, sempre intentant que el model aprengui la paraula següent. “Fent això amb tot internet i amb finestres de paraules més llargues, la màquina ajusta la paraula següent més probable i obté una molt bona comprensió sobre com continuarà un text donat”, va explicar l’investigador.

Transformar les entrades de text en una cosa nova 

L’arquitectura bàsica del funcionament d’aquests models es diu Transformers, ja que el que fan és transformar un text d’entrada, que es codifica i després es descodifica novament per obtenir un text de sortida nou. “En aquest procés, hi ha moltes capes; es podria dir que és com una sèrie de petites neurones —de fet, estan inspirades en les neurones del nostre cervell—, que estan connectades entre elles. Aquestes capes reben una entrada de text, que es converteix seqüencialment en vectors —assignant números per cada paraula— que serveixen per identificar les paraules en un espai vectorial molt gran, amb milers o fins i tot més coordenades, i després es transformen seguint un procés en el qual una mateixa paraula pot tenir una representació vectorial diferent segons el context. I passa igual en el procés de descodificació”, va explicar. 

Un component clau per a aquest model de llenguatge i una de les raons per les quals funciona tan bé és l’autoatenció, és a dir, que es té en compte la relació entre totes les paraules de cada frase. “Aquest és l’ingredient clau per fer que aquests models siguin tan poderosos, ja que no tenen una representació única per a una paraula donada, i a més són capaços de mirar altres parts de l’oració i que aquest context determini quines paraules cal triar”, va apuntar.

En aquest sentit, l’investigador va destacar que hi ha dues tipologies de model: els models de llenguatge tradicionals (per exemple, ChatGPT) només utilitzen com a context el que és a l’esquerra de cada paraula. En canvi, els anomenats models de llenguatge emmascarats, com BERT, utilitzen com a context tant les paraules que hi ha a l’esquerra com a la dreta. Davant la pregunta de quin és millor, l’investigador va assenyalar que dependrà de la tasca que s’ha d’executar: “BERT és molt bo per emplenar buits i es fa servir més per predir coses, mentre que els models tipus ChatGPT són molt bons, per exemple, per escriure assajos i per respondre preguntes”. 

Ajustar el model a tasques específiques

Aquests models també es poden adaptar a una tasca específica, per mitjà del fine-tuning. “Bàsicament, comences amb un model de llenguatge extens ja entrenat que té molta informació i li proporciones exemples de tasques específiques, la qual cosa li permet ser més eficient per aprendre aquestes noves tasques”, va explicar. 

En aquest sentit, l’investigador també va detallar altres conceptes relacionats amb aquest tipus d’ajustament, com l’enfocament few-shot, que consisteix a proporcionar només alguns exemples al model de llenguatge i veure si és capaç d’aprendre aquesta tasca; i l’enfocament zero-shot, en què no se li mostra cap exemple per veure com reacciona davant la nova tasca. “En realitat, encara no és clar si el model aprèn noves tasques des de zero en el moment de la inferència, o simplement reconeix patrons vists durant l’entrenament”, va afegir. 

Comprovar la veracitat de la informació

Durant la conferència, l’investigador de la UOC també va descriure algun dels problemes que tenen aquests models. Un dels més importants és la consistència fàctica dels textos que produeixen. “Aquest és un problema conegut del qual s’ha de ser conscient en fer servir aquests models: no hi ha garantia que els fets que el model presenta siguin veritables”, va assenyalar amb rotunditat. Davant aquesta situació, va aconsellar “comprovar sempre la veracitat de la informació que s’obté”. 

Un altre problema destacat a l’hora de treballar amb aquesta tecnologia és el potencial biaix en les dades. “Atès que aquests models han estat entrenats amb grans segments d’informació d’internet, amb tota mena d’opinions i preferències personals, aquests punts de vista es veuran reflectits en el text. Per exemple, pot tenir biaixos de gènere, de manera que pot associar certes professions més probablement a homes o dones basant-se en el que ha après. Per això cal tenir molta cura amb quines dades s’alimenta aquests models”, va explicar. 

En qualsevol cas, el professor Kaltenbrunner va assenyalar que els biaixos no sempre són “necessàriament negatius”, perquè un llenguatge sense cap biaix no seria un llenguatge humà. “Tots tenim biaixos; per exemple, hi ha certes coses que ens semblen més boniques que unes altres: preferim flors que insectes. Per tant, si tens models de llenguatge que no tenen aquest tipus de biaixos, les persones veuran que el text és estrany i artificial, per la qual cosa probablement no els agradarà, i això vol dir que hi ha un equilibri que s’ha de trobar”, va afegir.

No obstant això, també va apuntar que des de les companyies s’està treballant “molt per millorar i reduir aquests biaixos”, per la qual cosa és probable que en versions futures dels algorismes aquests biaixos no siguin tan prevalents. 

Un entrenament d’entre 4,6 i 12 milions de dòlars

Els inconvenients d’aquesta tecnologia van més enllà dels seus resultats, ja que es tracta d’uns sistemes molt cars de fer funcionar. “El cost d’entrenar tan sols una vegada ChatGPT és d’entre 4,6 i 12 milions de dòlars, a la qual cosa s’afegiria el cost energètic, que es calcula en aproximadament 100.000 dòlars”, va destacar. Aquestes xifres posen damunt de la taula el filtre econòmic d’accés a aquestes tecnologies. “Atès que els models són tan costosos d’entrenar i executar, no totes les empreses tindrien la capacitat de desenvolupar aquests models, la qual cosa se sumaria al fet que l’accés a la informació estaria en mans de grans empreses”, va alertar l’investigador. 

A més, es tracta de models que no treballen amb codi obert, així que els algorismes amb els quals funcionen són opacs. “Hi ha algunes alternatives en què tot és accessible i reproduïble per investigadors i usuaris independents, però tenen menys recursos, per la qual cosa són menys potents”, va afegir. En aquest sentit, l’investigador de la UOC va plantejar la necessitat de regular aquesta situació i que els estats i les grans institucions multinacionals com la Unió Europea financin aquestes tecnologies per garantir “un accés universal a aquests models”. 

Un procés de cocreació humà-intel·ligència artificial (IA)

La conferència va acabar amb unes reflexions sobre la millor manera de treballar amb aquests models per evitar aquestes febleses. Per a Andreas Kaltenbrunner, la manera d’enfocar l’ús d’aquests models és la “cocreació humà-IA”, en la qual aquesta tecnologia seria una “una eina utilitzada pels humans per ajudar-los a prendre decisions”. D’aquesta manera, s’evitarien problemes específics com els biaixos i la inconsistència fàctica. “Es tractaria d’una solució en la qual humans i models de llenguatge extensos treballen junts en les tasques, sense deixar que la tecnologia funcioni de manera independent i amb les persones prenent les decisions finals”, va concloure l’investigador. 

Recupera la ponència LLMs (ChatGPT and others): understading how they work and the changes they can bring aquí:

(Visited 125 times, 1 visits today)
Autor / Autora
Periodista col·laborador
Comentaris
Deixa un comentari