Carlos González Morcillo: «La inteligencia artificial va a generar cambios muy importantes en cuanto a lo que se considera valioso»
21/09/2023Carlos González Morcillo es un apasionado por la informática, la comunicación y el diseño. Aficionado también de la fotografía, la magia y el cine, ha construido una carrera académica e investigativa dedicada a fusionar ambos mundos. Docente, investigador y catedrático de la Universidad de Castilla-La Mancha, Morcillo participó en el Webinar de Data Science – Pintando con palabras: arte digital con modelos de difusión e inteligencia artificial. Hablamos con él sobre arte, modelos de difusión e innovación en el ámbito de la inteligencia artificial.
¿Cómo está planteado el seminario “Pintando con palabras” y qué encontrarán los participantes?
El objetivo de la sesión es presentar una serie de herramientas que están causando mucho revuelo en la comunidad artística actualmente. En concreto, me voy a centrar en los modelos de difusión, que son estas herramientas que saltaron al uso generalizado en verano del año pasado, cuando empezaron a ponerse a disposición del público. Estos modelos llevan más de dos años desarrollándose en el ámbito científico. Quiero mostrarlos a través de dos ideas. En primer lugar, contar cómo funcionan internamente todas estas herramientas, sin irnos al detalle de la línea de código, sino desde un punto de vista general. Vamos a prestar especial atención al modelo open source por excelencia, que es el de Stable Difussion, en el que se puede estudiar con más detalle cómo está hecho. También quiero que nos fijemos en qué potencialidades y limitaciones tienen algunas herramientas que están apareciendo últimamente… Me gusta hablar de “métodos para dominar a la bestia”, para darle el comportamiento que quieres más allá de ponerle un prompt y que el sistema genere una imagen. Hablaremos de cómo personalizar el proceso para ir consiguiendo la salida artística que el artista tiene en su cabeza.
Para la gente que no está tan familiarizada con el término: ¿qué son los modelos de difusión y por qué están siendo tan innovadores últimamente?
Son un tipo de modelo generativo de datos que se aplica mucho a la síntesis de imágenes. Ya existían modelos generativos anteriormente a estos modelos de difusión, pero lo que ocurría es que estaban muy limitados al tipo de entrenamiento que se les había dado. Por ejemplo, había modelos de difusión que permitían generar caras que nunca habían existido. Esos ya los conocíamos desde hace cuatro o cinco años, estaban dando unos resultados sorprendentes, pero eran muy específicos para aquello que habían sido entrenados. Lo que no existían eran modelos generales que valieran para cualquier cosa. Por ejemplo: imagínate que quiero generar un perro jugando al parchís. Obviamente, no había ningún modelo para esa imagen. Estos nuevos modelos cubren ese hueco que existía. Explicado de forma muy rápida, el entrenamiento de estos modelos se basa en coger imágenes que ya existen y en ir añadiéndoles ruido blanco, algo así como los televisores antiguos que no estaban sintonizados. Una vez consigues una imagen que es puro ruido blanco, se va enfocando hasta que llega al resultado que tú quieres. Lo que se le añade es una capa de texto que va guiando el proceso, hasta llegar a una imagen que responda a la petición que tú has hecho.
El objetivo del webinar es presentar una serie de herramientas que están causando mucho revuelo en la comunidad artística actualmente como, por ejemplo, Stable Difussion.
Una de las cuestiones más interesantes cuando hablamos de modelos de difusión es pensar sus potencialidades y sus limitaciones. ¿Qué mundos posibles te imaginas con estas herramientas?
Si pensamos en limitaciones, creo que desde el punto de vista artístico, hace un año aproximadamente se veían muy claramente y se podía identificar con bastante facilidad si una imagen había sido generada por inteligencia artificial o no. Por ejemplo, salían manos con muchísimos dedos… Había mucha broma en las redes sociales, memes con imágenes que no eran correctas. Pero esas cuestiones ya están resueltas. A día de hoy, diría que muchísimas imágenes de las que se están generando, ya pasan el “Test de Turing de imágenes”: no somos capaces de distinguir si una imagen ha sido generada por un humano o por una inteligencia artificial.
Llegados a este punto, yo me quedaría con la idea de cómo de útil es una herramienta a la hora de expresar la intención que tiene el artista de generar emociones. Me gusta compararlo con el proceso de hacer una fotografía: todo el mundo puede apretar el botón del disparador de una cámara y hacer una foto, pero no quiere decir que cualquier imagen generada con una cámara fotográfica despierte emociones, tenga la intencionalidad que nosotros queremos, en definitiva sea “arte”. Igual ocurre con la síntesis de las imágenes con inteligencia artificial. Entonces, las limitaciones que tenemos no son tanto técnicas, sino que la limitación principal es que responden a lo que nosotros pedimos, y, por lo tanto, tiene que ser el humano el que guíe ese proceso generativo para llegar al resultado que queramos.
Tú mismo te describes como un gran aficionado a la música, la fotografía, el dibujo… Y muchas formas de arte. ¿Cuándo empezaste a incluir tus aficiones dentro de tu trabajo con la informática y la tecnología?
Soy un “culo inquieto” y efectivamente no, no tuve nunca claro si dedicarme al mundo de las bellas artes o al mundo tecnológico. Al final, cogí el camino del medio de estudiar una titulación técnica como informática, pero llevándolo siempre al campo que me apasionaba. Mi tesis doctoral fue en el ámbito de la optimización del proceso de rendering, de generar imágenes tridimensionales por ordenador, con una investigación sobre cómo acelerar los cálculos con inteligencia artificial. Así que siempre he estado más o menos pendiente de las cosas que tenían que ver con generación gráfica e informática. En los últimos años, con todo el boom de estos sistemas y las inteligencias artificiales generativas que estamos viendo ahora, están pasando muchísimas cosas en muy poco tiempo, y eso hace que prácticamente cada semana aparezca una innovación que es muy sorprendente. Cuesta mucho estar al día en esta área de trabajo porque todo va rapidísimo.
A día de hoy no somos capaces de distinguir si una imagen ha sido generada por un humano o por una inteligencia artificial.
¿Qué ha pasado en los últimos 12 o 24 meses que se ha producido este boom en la inteligencia artificial?
Sobre todo es que se han ido desarrollando ciertas técnicas y algoritmos que antes no teníamos, y todo eso ha sido muy reciente. Sin esas técnicas, aunque la idea hubiera estado clara, no habría sido posible hacer muchas de las cosas que se están haciendo. La capacidad de cómputo que tenemos hoy en día y las grandes granjas de ordenadores que hacen falta para entrenar estos modelos también han sido clave para la eclosión, porque hace diez años no existía la tecnología suficiente para haber podido aterrizarlos. Además, el coste de entrenamiento de un modelo de difusión puede estar en el medio millón de dólares, con lo cual escapa al alcance de los pequeños estudios y equipos de investigación. Pero, por suerte, se están liberando estos grandes modelos hechos por gente que tiene suficiente capacidad económica y de infraestructura, lo que permite a la comunidad científica ir evolucionando y haciendo desarrollos sobre esos primeros núcleos.
Muchas veces, la primera reacción de la gente al hablar de inteligencia artificial es el miedo.
Cometemos dos errores principales cuando pensamos en inteligencia artificial. Uno de ellos es pensar en que todo esto tiene una autonomía desmedida, pensamos en una especie de Terminator que va a acabar con nosotros y en cómo las máquinas van a dominar el mundo, pero esto no es así. Al final esto tiene un control humano que es el que le dice qué es lo que tiene que hacer. Pero la otra cara es que infravaloramos la capacidad disruptiva que tiene la tecnología, porque sí que van a ocurrir cambios muy importantes en cuanto a lo que se considera valioso. Al final todo esto responde a la oferta y a la demanda, y a que se puede hacer con menos coste. Y al final si tienes una inteligencia artificial que te ayuda a aumentar la productividad o a generar un resultado válido con mucho menos coste, pues se va a implementar. Cuando uno quería obtener una respuesta a algo, primero tenía que leer libros y aprender sobre ello; después pasamos a consultar la Wikipedia y, hoy en día, se lo preguntamos a un chat, porque el coste es menor. Hay que vigilar qué perseguimos como sociedad para que el uso de estos sistemas inteligentes sea el correcto, no sea que al final acabemos los humanos siendo más estúpidos.
Cometemos dos errores principales cuando pensamos en inteligencia artificial: pensar que la IA tiene una autonomía desmedida e infravalorar la capacidad disruptiva que tiene la tecnología.
Si hablamos de inteligencia artificial aplicada a las artes, no podemos dejar de hablar de la dimensión humana en la creación. De todos los debates abiertos que hay alrededor de ello, ¿qué reflexión te parece que no hay que perder de vista?
Hay muchos debates abiertos alrededor del plagio y la autoría, sobre si estas inteligencias artificiales están plagiando la obra de los humanos o no. Es cierto que cuando salió el primer Stable Diffusion, se robaron imágenes sin pedirle permiso a los autores para entrenar el sistema. Es una técnica habitual cuando se hacen trabajos de investigación, de coger imágenes que están disponibles en internet. Yo creo que nadie esperaba que esto eclosionara como lo hizo y hubiera tan buenos resultados. Pero ahora, en el último Stable Diffusion se ha desarrollado un banco de imágenes y se han eliminado aquellas que no contaban con el permiso del autor. Por otro lado, en la propia creación humana, la persona aprende de obras previas; nadie parte de una hoja en blanco. También hubo debates alrededor de la autoría cuando salieron las tabletas gráficas, porque no era lo mismo pintar al natural que seleccionar un color RGB en una pantalla y aplicarlo.
A fin de cuentas, hoy en día se están utilizando unas herramientas que son de mucho más alto nivel, y que te facilitan muchísimo el trabajo, y de ahí surgen los debates alrededor de la autoría. Cuando estás especificando directamente un texto y generas una imagen, ¿hasta qué punto esa imagen que has generado tú te pertenece? Bueno, hasta el punto de que tienes que haber elegido las palabras exactas y posiblemente también ver qué semilla y qué número has utilizado a la hora de generar esos vectores aleatorios iniciales. ¿Eso te da la capacidad de ser autor de la imagen? Para mí no cabe duda si lo unimos a las herramientas nuevas de control que están surgiendo, la capacidad de guiar el proceso que tiene la persona cuando se involucra en la generación de la imagen puede ser altísima.
Recupera el Webinar de Data Science – Pintando con palabras: arte digital con modelos de difusión e inteligencia artificial: