Entrenament de sistemes d’IA i drets d’autor: el cas Thomson Reuters v. Ross Intelligence
21/05/2025Entre els múltiples reptes legals que planteja la intel·ligència artificial es troba el d’assegurar el respecte dels drets de propietat intel·lectual sobre els continguts utilitzats en l’entrenament dels models i sistemes d’IA.
Aquests models i sistemes, particularment els anomenats d’ús general, necessiten quantitats ingents de textos, imatges, vídeos i àudios per a la fase d’entrenament. No obstant això, en bona part, aquests continguts gaudeixen de protecció per drets d’autor o drets afins als d’autor. La seva utilització per part dels desenvolupadors per entrenar models d’IA sense disposar de l’autorització o llicència dels titulars de drets ha generat conflictes que han arribat als tribunals en diverses jurisdiccions. No hi ha una solució senzilla.
Un dels casos, probablement el primer a plantejar-se, el 2020, va ser una demanda de Thomson Reuters contra l’empresa Ross Intelligence, que suposadament havia utilitzat continguts protegits de la base de dades Westlaw per entrenar un algorisme d’IA de cerques jurídiques. Després de diverses vicissituds, el passat 11 de febrer de 2025 el jutge de districte de l’estat de Delaware va emetre una decisió de summary judgment, que inclina la balança a favor de la demandant, en dictaminar que l’activitat de Ross Intelligence no queda emparada en l’anomenat fair use, que permet certs usos legítims sense autorització del titular dels drets en el dret estatunidenc.
En aquesta entrada recollim els aspectes principals d’aquest interessant cas i l’anàlisi del jutge.
Thomson Reuters contra Ross Intelligence
El cas es refereix a la plataforma Westlaw, una base de dades de legislació, jurisprudència i doctrina, que pertany a Thomson Reuters. La plataforma classifica els materials amb un sistema propi de numeració i afegeix un encapçalament que resumeix els punts clau o de major rellevància de les sentències que indexa. Per part seva, l’empresa Ross Intelligence (Ross), una petita empresa competidora, elabora un cercador jurídic que utilitza IA. Per entrenar el seu sistema necessitava disposar d’un banc de preguntes i respostes jurídiques. Va demanar una llicència a Thomson Reuters per utilitzar el contingut de Westlaw a aquest propòsit, però en tractar-se d’un competidor, Thomson Reuters li va denegar la llicència. Llavors Ross va contractar l’empresa LegalEase perquè li facilités bancs de preguntes, juntament amb respostes correctes i errònies per a les preguntes. LegalEase va crear uns 25.000 conjunts de preguntes i respostes, que havia elaborat a partir dels encapçalaments de Westlaw. Ross va utilitzar aquests bancs de preguntes (bluk memos) per entrenar el seu sistema d’IA. El desembre de 2020, Thomson Reuters va demandar Ross per infracció de copyright.
En el marc del procés, totes dues parts van formular mocions per obtenir una decisió sumària (summary judgment), això és, peticions dirigides al jutge perquè resolgui la qüestió (o algun aspecte de la controvèrsia) basant-se exclusivament en elements de dret, una cosa que només és possible quan no hi ha dubtes sobre els fets, o quan aquests fets no són rellevants per a la decisió.
El setembre de 2023 el jutge va dictar una decisió (memorandum opinion) rebutjant les mocions de summary judgment, i indicant que el cas hauria de sotmetre’s a judici amb jurat per valorar, com a qüestió de fet, si els encapçalaments de Westlaw superaven el llindar mínim d’originalitat per ser protegibles. No obstant això, abans de la data prevista per al judici, el jutge va canviar d’opinió, va ajornar la data del judici i va demanar les parts que es pronunciessin de nou sobre les seves peticions de summary judgment. Una vegada analitzats els escrits de les parts, va dictar una nova decisió (memorandum opinion), el febrer de 2025.
Originalitat, còpia i similitud substancial
El jutge comença aquesta nova decisió portant a col·lació l’aforisme segons el qual “l’home intel·ligent sap quan té raó, i el savi sap quan està equivocat”, i assenyala a continuació que la saviesa el visita poques vegades i que, quan ho fa, no vol deixar passar l’ocasió, encara que sigui tard. La il·luminació del jutge sembla referir-se particularment al caràcter original dels encapçalaments que elabora Thomson Reuters. Mentre que en la primera decisió deferia al jurat l’apreciació de la concurrència del requisit d’originalitat, el seu nou convenciment el porta a afirmar sense gènere de dubtes que aquests encapçalaments són en efecte originals. No és fàcil arribar a aquesta conclusió a primera vista, ja que aquests breus resums, de potser una o dues frases, solen recollir amb bastant literalitat alguna declaració de la sentència o decisió a la qual es refereixen, la qual cosa aniria en detriment del seu caràcter original (tant pel fet que no seria creació pròpia, com pel fet que el text de les decisions judicials no està protegit per copyright).
No obstant això, el jutge conclou que aquests encapçalaments sí que són originals. Afirma que queden protegits no solament com a compilació, sinó que cadascun dels encapçalaments en si mateix és original. Almenys a l’efecte de superar el test d’originalitat fixat per la Cort Suprema en el cas Feist Publications, Inc. v. Rural Tel. Serv. Co., 499 U.S. 340 (1991), on la Cort Suprema va assenyalar que el llindar d’originalitat exigit per a la protecció per coypright és “extremadament baix”, de manera que només exigeix “un mínim grau de creativitat … una espurna creativa”.
Per explicar per què els encapçalaments han de considerar-se originals, a pesar que puguin reproduir frases literals de les sentències, el jutge recorre a una analogia amb la tasca d’un escultor. Un bloc de marbre en brut no és protegible per copyright, com no ho és una sentència. No obstant això, la tasca de l’escultor, que consisteix a decidir què treu i què no treu del bloc de marbre, dona lloc a un resultat protegible: l’escultura. D’igual manera, quan Westlaw decideix quin fragment aïllar i destacar de la sentència, està duent a terme una tasca creativa, fins i tot si el text de l’encapçalament que elabora és una frase literal que ja estava en la sentència.
Amb aquest convenciment, el jutge concedeix summary judgment a favor de Thomson Reuters, atès que els encapçalaments (i també el sistema de numeració de Westlaw) són prou originals.
Més enllà de l’originalitat, hi ha altres qüestions que el jutge ha de decidir per determinar si hi ha infracció per part de Ross: (a) si Ross va copiar o no, i (b) si la còpia és substancialment similar a l’original. Aquí, el jutge es refereix només als casos d’encapçalaments que no ofereixen dubte. Concretament, per a un total de 2.243 encapçalaments atorga summary judgment en favor de Thomson Reuters tant en el sentit que hi ha còpia, com en el sentit que la còpia és substancialment similar a l’original, de manera que cap jurat raonable conclouria una altra cosa. La resta d’encapçalaments ofereixen certs dubtes de fet i, per tant, aquests dubtes es remeten a la seva valoració en judici amb jurat.
Rebuig de l’excepció de fair use
La decisió judicial rebutja la bateria de defenses formulades per Ross, i de manera particularment rellevant l’excepció de fair use (ús legítim). El dret estatunidenc de copyright considera que certs usos no autoritzats poden emparar-se en aquesta excepció, per a la qual cosa té en compte una sèrie de factors enunciats de forma no exhaustiva en la secció 107 de la Copyright Act. En casos emblemàtics com el de Google Books (2015), els tribunals van sostenir que l’activitat controvertida (en aquest cas l’escaneig no autoritzat de llibres en el marc del projecte Google Books) quedava emparada per aquesta excepció.
Per la seva repercussió, aquest era sens dubte el punt més esperat de la decisió. Tant Ross com Thomson Reuters havien presentat mocions perquè el jutge declarés en summary judgment que el fair use era aplicable (posició de Ross) o que no ho era (posició de Thomson Reuters). En la decisió prèvia de 2023, el jutge havia considerat que no hi cabia summary judgment ni en un sentit ni en un altre i que la qüestió havia de decidir-se en judici amb jurat. En la decisió de 2025, en canvi, el jutge rectifica el seu criteri i conclou que els fets són prou clars per dictar summary judgment sobre la qüestió del fair use. I ho fa a favor de la demandant, Thomson Reuters, declarant que l’activitat de Ross no queda coberta pel fair use. El jutge arriba a aquesta conclusió després d’examinar els quatre factors previstos en la llei.
Especialment, en examinar el primer factor, el jutge sosté que l’ús de Ross no és un ús “transformatiu”, perquè no té un propòsit ulterior o un caràcter diferent de l’ús que fa Thomson Reuters. L’eina d’IA de Ross no era una IA generativa, sinó un cercador que, en resposta a una pregunta jurídica de l’usuari, era capaç de retornar-li les sentències rellevants mitjançant un algorisme d’IA degudament entrenat. Certament, en el resultat de les cerques, Ross no mostrava els encapçalaments copiats de Westlaw, que havia utilitzat per a l’entrenament. En aquest sentit, és una sort de còpia intermèdia, alguna cosa que en altres casos ha servit per afirmar el fair use. El jutge havia entès inicialment que això hauria de decidir-ho un jurat. En canvi, en la decisió de 2025 sosté que no és així. Explica que els casos de còpia intermèdia que es van considerar fair use tenien dos elements que no es donen aquí: (a) es tractava de còpia de codi informàtic i (b) la còpia era necessària per a l’ús transformatiu, per exemple, per fer enginyeria inversa per accedir a elements no protegits o per descobrir requisits funcionals de compatibilitat. Cap d’aquests elements concorre en el nostre cas. L’objectiu de la còpia era fer més fàcil la creació d’una eina de cerca jurídica competidora amb Westlaw, i per tant l’ús no pot considerar-se transformatiu. Amb això, el primer factor afavoreix Thomson Reuters. En aquest punt, el jutge adverteix de l’abast restringit de la seva decisió: es refereix només al cas concret d’IA no generativa que se li ha plantejat.
El segon factor (la naturalesa de l’obra) beneficia igualment Thomson Reuters, una vegada que el jutge s’ha convençut que el grau de creativitat dels encapçalaments és superior al mínim exigible. En canvi, el tercer factor, és a saber, la quantitat i importància de la part utilitzada en relació amb l’obra protegida en el seu conjunt, afavoreix Ross, perquè no mostra al públic els encapçalaments copiats de Westlaw. Finalment, el quart factor, clarament el més important en l’anàlisi, afavoreix Thomson Reuters. Aquest factor es refereix a aquest efecte que pot tenir l’ús sobre el mercat potencial o el valor de l’obra protegida. En la seva nova decisió, el jutge destaca que Ross busca competir amb Thompson Reuters creant un producte substitutiu en el mercat, i que l’ús de les dades per part de Ross pot afectar el mercat potencial de l’ús de dades per a l’entrenament de sistemes d’IA. En aquest cas, conclou el jutge, no hi ha res d’allò creat per Thompson que no hagués pogut crear Ross pel seu compte sense infringir els drets d’autor.
De la valoració conjunta dels quatre factors, el jutge decideix en summary judgment que Ross no pot emparar-se en la defensa de fair use.
Un panorama incert
El cas Thomson Reuters v. Ross Intelligence aborda un supòsit molt específic i no s’enfronta a grans models d’ús general i a sistemes d’IA generativa. En el cas, la finalitat del sistema d’IA era molt determinada i limitada: facilitar la cerca d’informació jurídica. Alhora, es va poder determinar amb detall quins continguts s’havien utilitzat per a l’entrenament. D’altra banda, el sistema no mostrava a l’usuari aquests materials d’entrenament aparentment infractors ni generava resultats de sortida que poguessin reputar-se tributaris dels continguts protegits. Molt més complexes són les qüestions jurídiques implicades en els casos dirigits contra els grans desenvolupadors d’IA com OpenAI, StabilityAI, Perplexity, Meta. No obstant això, l’ordre de summary judgment del jutge Bibas, en un procediment que encara no ha finalitzat, es pronuncia sobre un dels aspectes clau de la discussió, el de si l’ús de continguts protegits per a l’entrenament d’IA pot emparar-se en el fair use. Caldrà veure la influència que aquesta determinació pot tenir en altres casos en curs.