Entrenamiento de sistemas de IA y derechos de autor: el caso Thomson Reuters v. Ross Intelligence
21/05/2025
Entre los múltiples retos legales que plantea la inteligencia artificial se halla el de asegurar el respeto de los derechos de propiedad intelectual sobre los contenidos utilizados en el entrenamiento de los modelos y sistemas de IA.
Estos modelos y sistemas, particularmente los llamados de uso general, necesitan ingentes cantidades de textos, imágenes, vídeos, audios, para la fase de entrenamiento. Sin embargo, en buena parte, dichos contenidos gozan de protección por derechos de autor o derechos afines a los de autor. Su utilización por parte de los desarrolladores para entrenar modelos de IA sin contar con la autorización o licencia de los titulares de derechos ha generado conflictos que han llegado a los tribunales en diversas jurisdicciones. No hay una solución sencilla.
Uno de los casos, probablemente el primero en plantearse, en 2020, fue una demanda de Thomson Reuters contra la empresa Ross Intelligence, que supuestamente había utilizado contenidos protegidos de la base de datos Westlaw para entrenar un algoritmo de IA de búsquedas jurídicas. Tras diversas visicitudes, el pasado 11 de febrero de 2025 el juez de distrito del Estado de Delaware emitió una decisión de summary judgment, que inclina la balanza a favor de la demandante, al dictaminar que la actividad de Ross Intelligence no queda amparada en el llamado fair use, que permite ciertos usos legítimos sin autorización del titular de los derechos en el derecho estadounidense.
En esta entrada recogemos los aspectos principales de este interesante caso y el análisis del juez.
Thomson Reuters contra Ross Intelligence
El caso se refiere a la plataforma Westlaw, una base de datos de legislación, jurisprudencia y doctrina, que pertenece a Thomson Reuters. La plataforma clasifica los materiales con un sistema propio de numeración y añade un encabezamiento que resume los puntos clave o de mayor relevancia de las sentencias que indexa. Por su parte, la empresa Ross Intelligence (Ross), una pequeña empresa competidora, elabora un buscador jurídico que usa IA. Para entrenar su sistema necesitaba contar con un banco de preguntas y respuestas jurídicas. Pidió una licencia a Thomson Reuters para utilizar el contenido de Westlaw a este propósito, pero al tratarse de un competidor, Thomson Reuters le denegó la licencia. Entonces Ross contrató a la empresa LegalEase para que le facilitara bancos de preguntas, junto con respuestas correctas y erróneas para las preguntas. LegalEase construyó unos 25.000 conjuntos de preguntas y respuestas, que había elaborado a partir de los encabezamientos de Westlaw. Ross utilizó esos bancos de preguntas (bluk memos) para entrenar su sistema de IA. En diciembre de 2020, Thomson Reuters demandó a Ross por infracción de copyright.
En el marco del proceso, ambas partes formularon mociones para obtener una decisión sumaria (summary judgment), esto es, peticiones dirigidas al juez para que resuelva la cuestión (o algún aspecto de la controversia) basándose exclusivamente en elementos de derecho, algo que solo es posible cuando no hay dudas sobre los hechos, o cuando estos no son relevantes para la decisión.
En septiembre de 2023 el juez dictó una decisión (memorandum opinion) rechazando las mociones de summary judgment, indicando que el caso debería someterse a juicio con jurado para valorar, como cuestión de hecho, si los encabezamientos de Westlaw superaban el umbral mínimo de originalidad para ser protegibles. Sin embargo, antes de la fecha prevista para el juicio, el juez cambió de opinión, aplazó la fecha del juicio y pidió a las partes que se pronunciaran de nuevo sobre sus peticiones de summary judgment. Una vez analizados los escritos de las partes, dictó una nueva decisión (memorandum opinion), en febrero de 2025.
Originalidad, copia y similitud substancial
El juez empieza esta nueva decisión trayendo a colación el aforismo según el cual “el hombre inteligente sabe cuándo tiene razón, y el sabio sabe cuándo está equivocado”, y señala a renglón seguido que la sabiduría le visita pocas veces y que, cuando lo hace, no quiere dejar pasar la ocasión, aunque sea tarde. La iluminación del juez parece referirse particularmente al carácter original de los encabezamientos que elabora Thomson Reuters. Mientras que en la primera decisión defería al jurado la apreciación de la concurrencia del requisito de originalidad, su nuevo convencimiento le lleva a afirmar sin género de dudas que tales encabezamientos son en efecto originales. No es fácil llegar a esta conclusión a primera vista, ya que esos breves resúmenes, de quizás una o dos frases, suelen recoger con bastante literalidad alguna declaración de la sentencia o decisión a la que se refieren, lo que iría en detrimento de su carácter original (tanto por el hecho de que no sería creación propia, como por el hecho de que el texto de las decisiones judiciales no está protegido por copyright).
Sin embargo, el juez concluye tales encabezamientos sí son originales. Afirma que quedan protegidos no solo como compilación, sino que cada uno de los encabezamientos en sí mismo es original. Por lo menos a los efectos de superar el test de originalidad fijado por la Corte Suprema en el caso Feist Publications, Inc. v. Rural Tel. Serv. Co., 499 U.S. 340 (1991), donde la Corte Suprema señaló que el umbral de originalidad exigido para la protección por coypright es “extremadamente bajo”, de modo que solo exige “un mínimo grado de creatividad … una chispa creativa”.
Para explicar por qué los encabezamientos deben considerarse originales, a pesar de que puedan reproducir frases literales de las sentencias, el juez recurre a una analogía con la tarea de un escultor. Un bloque de mármol en bruto no es protegible por copyright, como no lo es una sentencia. Sin embargo, la tarea del escultor, que consiste en decidir qué quita y qué no quita del bloque de mármol, da lugar a un resultado protegible: la escultura. De igual modo, cuando Westlaw decide qué fragmento aislar y destacar de la sentencia, está llevando a cabo una tarea creativa, incluso si el texto del encabezamiento que elabora es una frase literal que ya estaba en la sentencia.
Con este convencimiento, el juez concede summary judgment a favor de Thomson Reuters en cuanto a que los encabezamientos (y también el sistema de numeración de Westlaw) son suficientemente originales.
Más allá de la originalidad, hay otras cuestiones que el juez debe decidir para determinar si hay infracción por parte de Ross: (a) si Ross copió o no, y (b) si la copia es sustancialmente similar al original. Aquí, el juez se refiere solo a los casos de encabezamientos que no ofrecen duda. Concretamente, para un total de 2.243 encabezamientos otorga summary judgment en favor de Thomson Reuters tanto en el sentido de que hay copia, como en el sentido de que la copia es sustancialmente similar al original, de modo que ningún jurado razonable concluiría otra cosa. El resto de encabezamientos ofrecen ciertas dudas de hecho y, por tanto, esos se remiten su valoración en juicio con jurado.
Rechazo de la excepción de fair use
La decisión judicial rechaza la batería de defensas formuladas por Ross, y de modo particularmente relevante la excepción de fair use (uso legítimo). El derecho estadounidense de copyright considera que ciertos usos no autorizados pueden ampararse en esta excepción, para lo que tiene en cuenta una serie de factores enunciados de forma no exhaustiva en la sección 107 de la Copyright Act. En casos emblemáticos como el de Google Books (2015), los tribunales sostuvieron que la actividad controvertida (en ese caso el escaneo no autorizado de libros en el marco del proyecto Google Books) quedaba amparada por esa excepción.
Por su repercusión, este era sin duda el punto más esperado de la decisión. Tanto Ross como Thomson Reuters habían presentado mociones para que el juez declarara en summary judgment que el fair use era aplicable (posición de Ross) o que no lo era (posición de Thomson Reuters). En la previa decisión de 2023, el juez había considerado que no cabía summary judgment ni en un sentido ni en otro y que la cuestión debía decidirse en juicio con jurado. En la decisión de 2025, en cambio, el juez rectifica su criterio y concluye los hechos son suficientemente claros como para dictar summary judgment sobre la cuestión del fair use. Y lo hace a favor de la demandante, Thomson Reuters, declarando que la actividad de Ross no queda cubierta por el fair use. El juez alcanza esta conclusión tras examinar los cuatro factores previstos en la ley.
En especial, al examinar el primer factor, el juez sostiene que el uso de Ross no es un uso “transformativo”, porque no tiene un propósito ulterior o un carácter distinto del uso que hace Thomson Reuters. La herramienta de IA de Ross no era una IA generativa, sino un buscador que, en respuesta a una pregunta jurídica del usuario, era capaz de devolverle las sentencias relevantes mediante un algoritmo de IA debidamente entrenado. Ciertamente, en el resultado de las búsquedas, Ross no mostraba los encabezamientos copiados de Westlaw, que había utilizado para el entrenamiento. En este sentido, es una suerte de copia intermedia, algo que en otros casos ha servido para afirmar el fair use. El juez había entendido inicialmente que esto debería decidirlo un jurado. En cambio, en la decisión de 2025 sostiene que no es así. Explica que los casos de copia intermedia que se consideraron fair use tenían dos elementos que no se dan aquí: (a) se trataba de copia de código informático y (b) la copia era necesaria para el uso transformativo, por ejemplo para hacer ingeniería inversa para acceder a elementos no protegidos o para descubrir requisitos funcionales de compatibilidad. Ninguno de estos elementos concurre en nuestro caso. El objetivo de la copia era hacer más fácil la creación de una herramienta de búsqueda jurídica competidora con Westlaw, y, por tanto, el uso no puede considerarse transformativo. Con ello, el primer factor favorece a Thomson Reuters. En este punto, el juez advierte del alcance restringido de su decisión: se refiere solo al concreto caso de IA no generativa que se le ha planteado.
El segundo factor (la naturaleza de la obra) beneficia igualmente a Thomson Reuters, una vez que el juez se ha convencido de que el grado de creatividad de los encabezamientos es superior al mínimo exigible. En cambio, el tercer factor, a saber, la cantidad e importancia de la parte utilizada en relación con la obra protegida en su conjunto, favorece a Ross, porque no muestra al público los encabezamientos copiados de Westlaw. Finalmente, el cuarto factor, claramente el más importante en el análisis, favorece a Thomson Reuters. Este factor se refiere al efecto que puede tener el uso sobre el mercado potencial o el valor de la obra protegida. En su nueva decisión, el juez destaca que Ross busca competir con Thompson Reuters creando un producto sustitutivo en el mercado y que el uso de los datos por parte de Ross puede afectar al mercado potencial del uso de datos para entrenamiento de sistemas de IA. En este caso, concluye el juez, no hay nada de lo creado por Thompson que no hubiera podido crear Ross por su cuenta sin infringir los derechos de autor.
De la valoración conjunta de los cuatro factores, el juez decide en summary judgment que Ross no puede ampararse en la defensa de fair use.
Un panorama incierto
El caso Thomson Reuters v. Ross Intelligence aborda un supuesto muy específico y no se enfrenta a grandes modelos de uso general y a sistemas de IA generativa. En el caso, la finalidad del sistema de IA era muy determinada y limitada: facilitar la búsqueda de información jurídica. A la vez, se pudo determinar con detalle qué contenidos se habían utilizado para el entrenamiento. Por otra parte, el sistema no mostraba al usuario esos materiales de entrenamiento aparentemente infractores, ni generaba resultados de salida que pudieran reputarse tributarios de los contenidos protegidos. Mucho más complejas son las cuestiones jurídicas implicadas en los casos dirigidos contra los grandes desarrolladores de IA como OpenAI, StabilityAI, Perplexity, Meta. Sin embargo, la orden de summary judgment del juez Bibas, en un procedimiento que todavía no ha finalizado, se pronuncia sobre uno de los aspectos clave de la discusión, el de si el uso de contenidos protegidos para el entrenamiento de IA puede ampararse en el fair use. Está por ver la influencia que esta determinación puede tener en otros casos en curso.