Machine learning: los cinco mitos alrededor de la creación de modelos predictivos

26/05/2022

Foto: charlesdeluvio en Unsplash.

El Machine Learning Operations (MLOps) es una de las nuevas tendencias del Big Data que están revolucionando el sector del tratamiento de datos y el machine learning. Pero, ¿en qué consiste exactamente? ¿Cómo deben desplegarse estos modelos predictivos para garantizar unos resultados eficientes? Luis Velasco, Data Analytics Specialist en Google, explicó cómo generar correctamente un modelo predictivo en el marco del Webinar de Data Science ‘MLOps: Aprendizaje automático en producción’. Una tarea compleja en la que se involucran tecnologías avanzadas y un equipo multidisciplinar.

La sesión fue organizada por Jordi Casas, director del máster universitario de Ciencia de Datos de la Universitat Oberta de Catalunya (UOC). En ella también participaron los alumnos y alumnas de los programas del ámbito de Ciencia de Datos de los Estudios de Informática, Multimedia y Telecomunicación de la UOC.

Software Tradicional VS Machine Learning

Un modelo de machine learning acaba por ser un modelo de software, por lo que es necesario realizar una comparación previa con todos los anteriores. “El split mantenimiento-desarrollo aún se mantiene en torno al 60%-40% en la mayoría de empresas de IT”, indicó Luis Velasco. Y añadió: “El machine learning nos permite un grado de control sobre los modelos generados es, en el mejor de los casos, medio bajo. Además, las cargas de trabajo relacionadas son a priori más complejas de administrar y mantener”.

Hasta no hace mucho tiempo, era posible gestionar manualmente los datos disponibles dentro de nuestra empresa. Ahora, sin embargo, se presenta un mundo basado en datos, un entorno de capturas automatizadas y lleno de flujos de información crecientes y cambiantes que inundan los almacenes de datos sin tregua.

El MLOps, o Machine Learning Operations, es una extensión de la metodología DevOps que simplemente busca incluir procesos de aprendizaje automático y ciencia de datos en la cadena de desarrollo y operaciones para hacer que el desarrollo del Machine Learning (ML) sea más confiable y productivo. Pero, ¿cuál es realmente su objetivo? Desarrollar, entrenar e implementar modelos de ML con procedimientos automatizados que integren equipos de datos, desarrolladores, seguridad e infraestructura.

Velasco explicó que para resolver esa situación que puede ser compleja e incluso más difícil de gestionar, se debe realizar “una aproximación a las técnicas de ML desde la ingeniería de software y de datos, como desde la Data Science”. Además, el analista de Google remarcó que “el primer notebook es tan solo una pequeña parte de un complejo sistema productivo, donde intervienen una gran cantidad de factores distintos”. En este sentido, durante la sesión el ponente reveló los principales mitos alrededor de la creación de modelos predictivos.

Cinco mitos alrededor de la creación de modelos predictivos

Mito 1: Desplegar un modelo no es complejo

Uno de los mitos más relevantes es la teoría de que desplegar un modelo no es para nada complejo. “Desplegar es sencillo, pero hacerlo y mantenerlo bajo SLOs puede ser realmente complicado”, destacó el experto. Es decir, que la mayor dificultad recae en el mantenimiento, sobre todo si tratamos con modelos que deben tener una cierta productividad.

Mito 2: Cómo máximo se despliegan dos modelos a la vez

“Booking.com tiene 150 modelos, Uber tiene miles y Google dice no hay prestación sin ML”. Dicho de otro modo: el caso de un modelo complejo que realice muchas tareas distintas no existe a no ser que se trate de ejemplos muy simples. “Cada vez hay modelos más específicos y, dentro de una área problemática, encontramos todavía más modelos. Es decir, nos dirigimos hacia una estructura de modelos cada vez más específicos”, explicó Velasco.

Mito 3: ¡No lo toques que lo vas a romper!

Se trata del gran mantra de la informática: si algo funciona bien, mejor dejarlo como está y no tocarlo demasiado. Según contó Velasco, cualquier modelo que se pone en producción se debe acabar modificando. “Las estructuras dependen de las variables estadísticas con las que se han entrenado, por lo que acabamos teniendo modelos altamente dinámicos que acaban sufriendo un cierto grado de degradación”, detalló.

Además, será necesario reentrenar los modelos con datos frescos cuando la potencia predictiva caiga por debajo del umbral de optimismo. “Un claro ejemplo de todo ello fue la irrupción de la crisis Covid, que por su naturaleza obligó a realizar cambios profundos en todos los modelos activos hasta el momento”, apuntó el experto.

Mito 4: No se necesita actualizar tanto el “core” del modelo

Se hace necesario, contrariamente a lo que se piensa, cambiar el core del propio modelo en muchas ocasiones. Un claro ejemplo de ello es de Etsy, que hace hasta 50 despliegues al día, o el de Netflix, que llega hasta los 1000 diarios. Weibo, que podría clasificarse como el “Twitter chino”, tiene modelos de predicción de click con un tiempo de interacción de apenas 10 minutos. “El tiempo de vida de este tipo de algoritmos es extremadamente corto. Resulta fascinante. Esto demuestra el dinamismo inherente que los caracteriza”, expuso Velasco.

Mito 5: El Machine Learning puede transformar tu producto o servicio mágicamente en muy poco tiempo

Según Velasco, existen casos en los que se han producido cambios sorprendentes y muy relevantes, pero nunca se han hecho realidad en poco tiempo. “El tiempo de despliegue mejora mucho con la madurez del algoritmo. Pero todavía no existen casos en los que veamos cambios sorprendentes en un abrir y cerrar de ojos”, aseguró.

En definitiva, hay que reconocer que los notebook son solo la punta del iceberg de todas las capacidades necesarias para desarrollar modelos predictivos de la forma más adecuada. “Los MLOps son complicados. Los modelos de entrenamiento y la preparación de los datos son solo dos de las capacidades fundamentales para triunfar en el machine learning, pero existen muchas más que deben tenerse en cuenta para lograr el éxito de despliegue”, concluyó el experto de Google.

Recupera el Webinar de Data Science ‘MLOps: Aprendizaje automático en producción’ aquí:

(Visited 159 times, 1 visits today)

Autor / Autora

Marc Solanes

Periodista

Comentarios

Deja un comentario