Más allá de ChatGPT: una mirada a las virtudes y peligros de los modelos de lenguaje masivo

18/01/2024

Modelos de lenguaje: virtudes y peligros

Imagen de Freepik.

Los modelos de lenguaje masivo, como ChatGPT, han revolucionado la manera en la que las máquinas comprenden y generan textos de manera natural, un avance con profundas implicaciones en el futuro de la educación y el trabajo. Andreas Kaltenbrunner, investigador líder del grupo de investigación AI and Data for Society (AID4So), del Internet Interdisciplinary Institute (IN3) de la Universitat Oberta de Catalunya (UOC), ofreció, en el marco de la 4ª Feria Virtual de Empleo de la UOC, una extensa panorámica sobre esta prometedora tecnología.

Con el título «LLMs (ChatGPT and others): understading how they work and the changes they can bring«, su conferencia recorrió las características, puntos fuertes y peligros potenciales de estos modelos, pero también estrategias para mitigar sus debilidades y emplearlos de forma responsable: “el uso de esos modelos de lenguaje masivos debe hacerse de una manera colaborativa, en la que algoritmos y humanos trabajen juntos con la supervisión de estos últimos”, resumió el investigador sobre este adelanto tecnológico que ya está impactando con fuerza en muchos sectores de nuestra sociedad.

Un modelo para comprender y generar el lenguaje

Un año después del lanzamiento del ChatGPT —el modelo de lenguaje masivo (LLM, por las siglas de large language model) más popular—, esta tecnología ha acaparado noticias y conversaciones, pero ¿qué es exactamente y cómo funciona? “Se trata de un modelo probabilístico de lenguaje natural cuya aplicación es la comprensión y generación de lenguaje. Se entrena con una cantidad masiva de datos, es decir, todo internet o incluso más, por lo que tiene miles de millones de parámetros que deben ajustarse para que funcione”, resumió Andreas Kaltenbrunner en el inicio de su conferencia.

El investigador de la UOC quiso aclarar desde el principio que ChatGPT, que proviene de una clase de modelo de lenguaje propiedad de la empresa OpenAI, ahora controlado por Microsoft, no es el único ejemplo de esta tecnología: “Hay otros modelos competidores, como LaMDA, desarrollado por Google y utilizado en Bard, el chat del motor de búsqueda de Google; LLaMa, desarrollado por la compañía paraguas de Facebook Meta AI, cuya versión de código abierto es Lama 2; o Claude, propiedad de Anthropic, un sistema creado con más atención a los sesgos”. Kaltenbrunner también mencionó BERT, otro sistema desarrollado por Google, que “tiene la ventaja de que no es tan intensivo en recursos, por lo que se puede ejecutar en máquinas propias, servidores o incluso en computadoras portátiles en algunas variantes”.

Predecir palabras a partir de ingentes cantidades de textos

Un componente clave de la tecnología son los modelos de lenguaje —no tienen por qué ser masivos—, que tienen la capacidad de modelar la distribución de probabilidad de una secuencia de palabras. “Un modelo de lenguaje simple es el que tenemos en nuestros teléfonos móviles inteligentes cuando estamos escribiendo: básicamente, lo que estamos haciendo es predecir, dada cierta cantidad de texto escrito, cuál es la continuación probable de este texto, es decir, la siguiente palabra”, explicó el investigador de la UOC.

Para poder hacer esta predicción, el proceso de aprendizaje de la tecnología consiste en “alimentar estos modelos con una gran cantidad de textos y desarrollar una tarea con la que la máquina puede aprender”, detalló. Por ejemplo, se toma una oración y partiendo de las dos primeras palabras (ventana inicial) se le pide que prediga la tercera. Este proceso se repite muchas veces moviendo la ventana inicial, es decir, las dos palabras iniciales pasarían a la segunda y la tercera, y después a la tercera y la cuarta palabra, y así progresivamente. Siempre intentando que el modelo aprenda la siguiente palabra. “Haciendo esto con todo internet y con ventanas de palabras más largas, la máquina ajusta la palabra siguiente más probable y obtiene una muy buena comprensión sobre cómo continuará un texto dado”, explicó el investigador.

Transformar las entradas de texto en algo nuevo

La arquitectura básica de del funcionamiento de estos modelos se llama Transformers, ya que lo que hacen es transformar un texto de entrada, que se codifica y luego se decodifica nuevamente para obtener un texto de salida nuevo. “En este proceso, hay muchas capas, se podría decir que es como una serie de pequeñas neuronas —de hecho, están inspiradas en las neuronas de nuestro cerebro—, que están conectadas entre sí. Estas capas reciben una entrada de texto, que se convierte secuencialmente en vectores —asignando números para cada palabra— que sirven para identificar las palabras en un espacio vectorial muy grande, con miles o incluso más coordenadas, y luego se transforman siguiendo un proceso en el que una misma palabra puede tener una representación vectorial diferente según el contexto. Y ocurre lo mismo en el proceso de decodificación”, explicó.

Un componente clave para este modelo de lenguaje y una de las razones por las que funciona tan bien es la autoatención, es decir, que se tiene en cuenta la relación entre todas las palabras de cada frase. “Este es el ingrediente clave para hacer que esos modelos sean tan poderosos, ya que no tienen una representación única para una palabra dada, y además son capaces de mirar a otras partes de la oración y que este contexto determine qué palabras elegir”, apuntó.

En este sentido, el investigador destacó que hay dos tipologías: los modelos de lenguaje tradicionales (por ejemplo, ChatGPT) solo utilizan como contexto lo que se encuentra a la izquierda de cada palabra. En cambio, los llamados modelos de lenguaje enmascarados, como BERT, utilizan como contexto tanto las palabras que hay a la izquierda como a la derecha. Ante la pregunta de cuál es mejor, el investigador señaló que dependerá de la tarea a ejecutar: “BERT es muy bueno para rellenar huecos y se usa más para predecir cosas, mientras que los modelos tipo ChatGPT son muy buenos, por ejemplo, para escribir ensayos y para responder a preguntas”.

Ajustar el modelo a tareas específicas

Estos modelos también se pueden adaptar a una tarea específica, a través del fine-tuning. “Básicamente, comienzas con un modelo de lenguaje masivo ya entrenado y que tiene mucha información y le proporcionas ejemplos de tareas específicas, lo que le permite ser más eficiente para aprender estas nuevas tareas”, explicó.

En este sentido, el investigador también detalló otros conceptos relacionados con este tipo de ajuste, como el enfoque few-shot, que consiste en proporcionar solo unos pocos ejemplos al modelo de lenguaje y ver si es capaz de aprender esa tarea; y el enfoque zero-shot, donde no se le muestra ningún ejemplo para ver cómo reacciona ante la nueva tarea. “En realidad, aún no está claro si el modelo aprende nuevas tareas desde cero en el momento de la inferencia o simplemente reconoce patrones vistos durante el entrenamiento”, añadió.

Verificar la veracidad de la información

Durante la conferencia, el investigador de la UOC también describió alguno de los problemas que tienen estos modelos. Uno de los más importantes es la consistencia fáctica de los textos que produce. “Este es un problema conocido del cual se debe ser consciente al usar estos modelos: no hay garantía de que los hechos que el modelo presenta sean verdaderos”, señaló con rotundidad. Ante esta situación, aconsejó “verificar siempre la veracidad de la información que se obtiene”.

Otro problema destacado a la hora de trabajar con esta tecnología es el potencial sesgo en los datos. “Dado que estos modelos han sido entrenados con grandes trozos de información de internet, con todo tipo de opiniones y preferencias personales, estos puntos de vista se verán reflejados en el texto. Por ejemplo, puede tener sesgos de género, de manera que puede asociar ciertas profesiones más probablemente a hombres o mujeres basándose en lo que ha aprendido. Por eso hay que tener mucho cuidado con qué datos se alimenta a estos modelos», explicó.

En cualquier caso, el profesor Kaltenbrunner señaló que los sesgos no son siempre “necesariamente negativos”, porque un lenguaje sin ningún sesgo no sería un lenguaje humano. “Todos tenemos sesgos, por ejemplo, hay ciertas cosas que nos parecen más bonitas que otras: preferimos flores a insectos. Por lo tanto, si tienes modelos de lenguaje que no tienen este tipo de sesgos, las personas verán que el texto es extraño y artificial, por lo que probablemente no les gustará, así que hay un equilibrio que se debe encontrar”, añadió.

No obstante, también apuntó que desde las compañías se está trabajando “mucho para mejorar y reducir estos sesgos” por lo que es probable que en versiones futuras de los algoritmos estos no sean tan prevalentes.

Un entrenamiento de entre 4,6 y 12 millones de dólares

Los inconvenientes de esta tecnología van más allá de sus resultados, ya que se trata de unos sistemas muy caros de hacer funcionar. “El coste de entrenar tan solo una vez a ChatGPT es de entre 4,6 y 12 millones de dólares, a lo que se añadiría el coste energético, que se calcula en aproximadamente 100.000 dólares”, destacó. Estas cifras ponen encima de la mesa el filtro económico de acceso a estas tecnologías. “Dado que los modelos son tan costosos de entrenar y ejecutar, no todas las empresas tendrían la capacidad de desarrollar estos modelos, lo que se sumaría a que el acceso a la información estaría en manos de grandes empresas”, alertó el investigador.

Además, se trata de modelos que no trabajan con código abierto, así que los algoritmos con los que trabajan son opacos. “Hay algunas alternativas donde todo es accesible y reproducible para investigadores y usuarios independientes, pero tienen menos recursos, por lo que son menos potentes”, añadió. En este sentido, el investigador de la UOC planteó la necesidad de regular esta situación y de que los estados y las grandes instituciones multinacionales como la Unión Europea financien estas tecnologías para garantizar “un acceso universal a estos modelos”.

Un proceso de cocreación humano-inteligencia artificial (IA)

La conferencia finalizó con unas reflexiones sobre la mejor manera de trabajar con estos modelos para evitar estas debilidades. Para Andreas Kaltenbrunner, la manera de enfocar el uso de estos modelos es la “cocreación humano-IA” en la que esta tecnología sería una “una herramienta utilizada por los humanos para ayudarles a tomar decisiones”. De esta manera, se evitarían problemas específicos como los sesgos y la inconsistencia fáctica. “Se trataría de una solución en la que humanos y modelo de lenguaje masivos trabajan juntos en las tareas, sin dejar que la tecnología funcione de forma independiente y con las personas tomando las decisiones finales”, concluyó el investigador.

Recupera la ponencia «LLMs (ChatGPT and others): understading how they work and the changes they can bring» aquí: