La aterradora verdad sobre los derechos de autor de la IA es que nadie sabe qué pasará después
El último año ha visto un auge en los modelos de IA que crean arte, música y código aprendiendo del trabajo de otros. Pero a medida que estas herramientas se vuelven más prominentes, las preguntas legales sin respuesta podrían dar forma al futuro del campo.
La IA generativa ha tenido un muy buen año. Corporaciones como Microsoft, Adobe y GitHub están integrando la tecnología en sus productos; las nuevas empresas están recaudando cientos de millones para competir con ellas; y el software incluso tiene influencia cultural, con modelos de IA de texto a imagen que generan innumerables memes. Pero escuche cualquier discusión de la industria sobre la IA generativa y escuchará, de fondo, una pregunta susurrada por defensores y críticos por igual en tonos cada vez más preocupados: ¿algo de esto es realmente legal?
La pregunta surge por la forma en que se entrenan los sistemas de IA generativa. Como la mayoría del software de aprendizaje automático, funcionan identificando y replicando patrones en los datos. Pero debido a que estos programas se usan para generar código, texto, música y arte, esos datos en sí mismos son creados por humanos, extraídos de la web y protegidos por derechos de autor de una forma u otra.
Para los investigadores de IA en el lejano pasado brumoso (también conocido como la década de 2010), esto no fue un gran problema. En ese momento, los modelos de última generación solo eran capaces de generar imágenes de caras en blanco y negro borrosas, del tamaño de una uña . Esto no era una amenaza obvia para los humanos. Pero en el año 2022, cuando un aficionado solitario pueda usar software como Stable Diffusion para copiar el estilo de un artista en cuestión de horas o cuando las empresas vendan impresiones generadas por IA y filtros de redes sociales que son imitaciones explícitas de diseñadores vivos, las preguntas de legalidad y ética se han vuelto mucho más apremiantes.
Los modelos de IA generativa se entrenan con datos protegidos por derechos de autor. ¿Es eso legal?
Tomemos el caso de Hollie Mengert, una ilustradora de Disney que descubrió que su estilo artístico había sido clonado como un experimento de IA por un estudiante de ingeniería mecánica en Canadá. La estudiante descargó 32 de las piezas de Mengert y se tomó algunas horas para entrenar un modelo de aprendizaje automático que pudiera reproducir su estilo. Como Mengert le dijo al tecnólogo Andy Baio, quien informó el caso : “Para mí, personalmente, se siente como si alguien estuviera tomando el trabajo que hice, ya sabes, las cosas que aprendí. He sido un artista en activo desde que me gradué. escuela de arte en 2011, y lo está usando para crear arte que [sic] no autoricé y no di permiso”.
¿Pero es eso justo? ¿Y Mengert puede hacer algo al respecto?
Para responder a estas preguntas y comprender el panorama legal que rodea a la IA generativa, The Verge habló con una variedad de expertos, incluidos abogados, analistas y empleados de nuevas empresas de IA. Algunos dijeron con confianza que estos sistemas ciertamente eran capaces de infringir los derechos de autor y podrían enfrentar serios desafíos legales en el futuro cercano. Otros sugirieron, con la misma confianza, que lo contrario era cierto: que todo lo que sucede actualmente en el campo de la IA generativa es legalmente aceptable y cualquier demanda está condenada al fracaso.
“Veo a personas en ambos lados de esto extremadamente confiadas en sus posiciones, pero la realidad es que nadie lo sabe”, dijo a The Verge Baio, quien ha estado siguiendo de cerca la escena de la IA generativa . “Y cualquiera que diga que sabe con confianza cómo se desarrollará esto en la corte está equivocado”.
Andrés Guadamuz, académico especializado en inteligencia artificial y derecho de propiedad intelectual de la Universidad de Sussex en el Reino Unido, sugirió que, si bien había muchas incógnitas, también había algunas preguntas clave a partir de las cuales se desarrollan las muchas incertidumbres del tema. En primer lugar, ¿puedes registrar los derechos de autor del resultado de un modelo de IA generativo y, de ser así, quién es el propietario? En segundo lugar, si posee los derechos de autor de la entrada utilizada para entrenar una IA, ¿eso le otorga algún derecho legal sobre el modelo o el contenido que crea? Una vez que se responden estas preguntas, surge una aún más grande: ¿cómo lidiar con las consecuencias de esta tecnología? ¿Qué tipo de restricciones legales podrían, o deberían, establecerse en la recopilación de datos? ¿Y puede haber paz entre las personas que construyen estos sistemas y aquellos cuyos datos se necesitan para crearlos?
Consideremos estas preguntas una a la vez.
La pregunta de salida: ¿puedes registrar los derechos de autor de lo que crea un modelo de IA?
Para la primera consulta, al menos, la respuesta no es demasiado difícil. En los EE. UU., no existe protección de derechos de autor para las obras generadas únicamente por una máquina. Sin embargo, parece que los derechos de autor pueden ser posibles en los casos en que el creador puede probar que hubo una participación humana sustancial.
En septiembre, la Oficina de Derechos de Autor de EE. UU. otorgó el primer registro de su tipo para un cómic generado con la ayuda de AI Midjourney de texto a imagen. El cómic es una obra completa : una narración de 18 páginas con personajes, diálogos y un diseño tradicional de cómic. Y aunque desde entonces se informó que la USCO está revisando su decisión, el registro de derechos de autor del cómic aún no se ha rescindido. Parece que un factor en la revisión será el grado de participación humana involucrada en hacer el cómic. Kristina Kashtanova, la artista que creó la obra, le dijo a IPWatchdogque la USCO le había pedido “que proporcione detalles de mi proceso para demostrar que hubo una participación humana sustancial en el proceso de creación de esta novela gráfica”. (La propia USCO no comenta sobre casos específicos).
Según Guadamuz, este será un tema recurrente cuando se trate de otorgar derechos de autor para obras generadas con la ayuda de IA. “Si simplemente escribes ‘gato de van Gogh’, no creo que eso sea suficiente para obtener los derechos de autor en Estados Unidos”, dice. “Pero si comienza a experimentar con indicaciones y produce varias imágenes y comienza a ajustar sus imágenes, comienza a usar semillas y comienza a diseñar un poco más, puedo ver totalmente que está protegido por derechos de autor”.
Los derechos de autor de la salida de un modelo de IA probablemente dependerán del grado de participación humana
Con esta rúbrica en mente, es probable que la gran mayoría de los resultados de los modelos generativos de IA no puedan estar protegidos por derechos de autor. Por lo general, se producen en masa con solo unas pocas palabras clave utilizadas como aviso. Pero procesos más complicados harían mejores casos. Estos pueden incluir piezas controvertidas, como la impresión generada por IA que ganó una competencia de feria de arte estatal . En este caso, el creador dijo que pasó semanas perfeccionando sus indicaciones y editando manualmente la pieza terminada, lo que sugiere un grado relativamente alto de participación intelectual.
Giorgio Franceschelli, un científico informático que ha escrito sobre los problemas relacionados con los derechos de autor de la IA, dice que medir el aporte humano será “especialmente cierto” para decidir casos en la UE. Y en el Reino Unido, la otra jurisdicción importante de preocupación para las nuevas empresas occidentales de IA, la ley es diferente una vez más. Inusualmente, el Reino Unido es uno de los pocos países que ofrece derechos de autor para obras generadas únicamente por una computadora , pero considera que el autor es “la persona que realiza los arreglos necesarios para la creación de la obra”. Una vez más, hay espacio para múltiples lecturas (¿esta “persona” sería el desarrollador del modelo o su operador?), pero ofrece precedencia para que se otorgue algún tipo de protección de derechos de autor.
Sin embargo, en última instancia, registrar los derechos de autor es solo un primer paso, advierte Guadamuz. “La oficina de derechos de autor de EE. UU. no es un tribunal”, dice. “Necesita registrarse si va a demandar a alguien por infracción de derechos de autor, pero será un tribunal el que decida si eso es legalmente exigible o no”.
La pregunta de entrada: ¿puede usar datos protegidos por derechos de autor para entrenar modelos de IA?
Para la mayoría de los expertos, las preguntas más importantes sobre la IA y los derechos de autor se relacionan con los datos utilizados para entrenar estos modelos. La mayoría de los sistemas están entrenados en grandes cantidades de contenido extraído de la web; ya sea texto, código o imágenes. El conjunto de datos de entrenamiento para Stable Diffusion, por ejemplo, uno de los sistemas de texto a IA más grandes e influyentes, contiene miles de millones de imágenes extraídas de cientos de dominios ; todo, desde blogs personales alojados en WordPress y Blogspot hasta plataformas de arte como DeviantArt y sitios de imágenes de archivo como Shutterstock y Getty Images. De hecho, los conjuntos de datos de entrenamiento para la IA generativa son tan amplios que es muy probable que ya esté en uno (incluso hay un sitio web donde puede verificar cargando una imagen o buscando algún texto ).
La justificación utilizada por los investigadores de inteligencia artificial, las nuevas empresas y las empresas tecnológicas multimillonarias es que el uso de estas imágenes está cubierto (al menos en los EE. UU.) por la doctrina del uso justo , que tiene como objetivo fomentar el uso de obras protegidas por derechos de autor para promover la libertad. de expresión.
Al decidir si algo es de uso justo, hay una serie de consideraciones, explica Daniel Gervais, profesor de la Facultad de Derecho de Vanderbilt que se especializa en leyes de propiedad intelectual y ha escrito extensamente sobre cómo esto se cruza con la IA. Sin embargo, hay dos factores que tienen “mucha, mucha más importancia”, dice. “¿Cuál es el propósito o la naturaleza del uso y cuál es el impacto en el mercado?” En otras palabras: ¿el caso de uso cambia la naturaleza del material de alguna manera (generalmente descrito como un uso “transformador”) y amenaza el sustento del creador original al competir con sus obras?
Entrenar una IA generativa en datos protegidos por derechos de autor probablemente sea legal, pero podría usar ese mismo modelo de manera ilegal
Teniendo en cuenta la responsabilidad que recae sobre estos factores, Gervais dice que “es mucho más probable que no” que los sistemas de capacitación sobre datos protegidos por derechos de autor estén cubiertos por el uso justo. Pero no necesariamente se puede decir lo mismo de la generación de contenido. En otras palabras: puede entrenar un modelo de IA utilizando los datos de otras personas, pero lo que haga con ese modelo podría ser una infracción. Piense en ello como la diferencia entre ganar dinero falso para una película e intentar comprar un automóvil con él.
Considere el mismo modelo de IA de texto a imagen implementado en diferentes escenarios. Si el modelo se entrena con muchos millones de imágenes y se usa para generar imágenes novedosas, es muy poco probable que esto constituya una infracción de derechos de autor. Los datos de entrenamiento se han transformado en el proceso y el resultado no amenaza el mercado del arte original. Pero, si ajusta ese modelo en 100 imágenes de un artista específico y genera imágenes que coincidan con su estilo, un artista descontento tendría un caso mucho más sólido en su contra.
“Si le das a una IA 10 novelas de Stephen King y dices: ‘Produce una novela de Stephen King’, entonces estás compitiendo directamente con Stephen King. ¿Sería eso un uso justo? Probablemente no”, dice Gervais.
Sin embargo, de manera crucial, entre estos dos polos de uso justo e injusto, hay innumerables escenarios en los que la entrada, el propósito y la salida se equilibran de manera diferente y podrían influir en cualquier decisión legal de una forma u otra.
Ryan Khurana, jefe de personal de la empresa de IA generativa Wombo, dice que la mayoría de las empresas que venden estos servicios son conscientes de estas diferencias. “El uso intencional de indicaciones que se basan en obras con derechos de autor para generar una salida […] viola los términos de servicio de todos los jugadores importantes”, dijo a The Verge por correo electrónico. Pero, agrega, “la aplicación es difícil” y las empresas están más interesadas en “encontrar formas de evitar el uso de modelos que violen los derechos de autor […] que en limitar los datos de capacitación”. Esto es particularmente cierto para los modelos de texto a imagen de código abierto como Stable Diffusion, que se pueden entrenar y usar sin supervisión ni filtros. Es posible que la empresa se haya cubierto las espaldas, pero también podría estar facilitando usos que infringen los derechos de autor.
Otra variable para juzgar el uso justo es si los datos y el modelo de capacitación han sido creados por investigadores académicos y organizaciones sin fines de lucro. Esto generalmente fortalece las defensas de uso justo y las nuevas empresas lo saben. Entonces, por ejemplo, Stability AI, la compañía que distribuye Stable Diffusion, no recopiló directamente los datos de entrenamiento del modelo ni entrenó a los modelos detrás del software. En cambio, financió y coordinó este trabajo por parte de académicos y el modelo Stable Diffusion está autorizado por una universidad alemana . Esto permite que Stability AI convierta el modelo en un servicio comercial (DreamStudio) manteniendo la distancia legal desde su creación.
Baio ha denominado a esta práctica ” lavado de datos de IA “. Señala que este método se ha utilizado antes con la creación de software de inteligencia artificial de reconocimiento facial, y señala el caso de MegaFace, un conjunto de datos compilado por investigadores de la Universidad de Washington mediante el raspado de fotos de Flickr. “Los investigadores académicos tomaron los datos, los lavaron y los utilizaron las empresas comerciales”, dice Baio. Ahora, dice, estos datos, incluidos millones de imágenes personales, están en manos de “[la firma de reconocimiento facial] Clearview AI y las fuerzas del orden y el gobierno chino”. Es probable que un proceso de lavado tan probado ayude a proteger a los creadores de modelos generativos de IA de responsabilidad también.
Sin embargo, hay un último giro en todo esto, ya que Gervais señala que la interpretación actual del uso justo puede cambiar en los próximos meses debido a un caso pendiente en la Corte Suprema que involucra a Andy Warhol y Prince . El caso involucra el uso de Warhol de fotografías de Prince para crear obras de arte. ¿Fue un uso legítimo o se trata de una infracción de derechos de autor?
“La Corte Suprema no hace uso justo muy a menudo, así que cuando lo hacen, por lo general hacen algo importante. Creo que van a hacer lo mismo aquí”, dice Gervais. “Y decir que algo es ley establecida mientras se espera que la Corte Suprema cambie la ley es arriesgado”.
¿Cómo pueden los artistas y las empresas de IA hacer las paces?
Incluso si se descubre que el entrenamiento de modelos generativos de IA está cubierto por el uso justo, eso difícilmente resolverá los problemas del campo. No aplacará a los artistas enojados porque su trabajo se ha utilizado para entrenar modelos comerciales, ni será necesariamente cierto en otros campos generativos de IA, como el código y la música. Con esto en mente, la pregunta es: ¿qué remedios se pueden introducir, técnicos o de otro tipo, para permitir que la IA generativa prospere mientras se otorga crédito o compensación a los creadores cuyo trabajo hace posible el campo?
La sugerencia más obvia es licenciar los datos y pagar a sus creadores. Para algunos, sin embargo, esto acabará con la industria. Bryan Casey y Mark Lemley, autores de “ Aprendizaje justo ”, un artículo legal que se ha convertido en la columna vertebral de los argumentos que promocionan el uso justo de la IA generativa, dicen que los conjuntos de datos de entrenamiento son tan grandes que “no existe una opción plausible simplemente para licenciar todos los recursos subyacentes”. fotografías, videos, archivos de audio o textos para el nuevo uso”. Argumentan que permitir cualquier reclamo de derechos de autor es “equivalente a decir que no se les pagará a los propietarios de los derechos de autor, sino que no se permitirá el uso en absoluto”. Permitir el “aprendizaje justo”, como lo enmarcan, no solo fomenta la innovación sino que permite el desarrollo de mejores sistemas de IA.
Otros, sin embargo, señalan que ya hemos abordado problemas de derechos de autor de escala y complejidad comparables y que podemos hacerlo nuevamente. Una comparación invocada por varios expertos con los que habló The Verge fue la era de la piratería musical, cuando los programas para compartir archivos se construyeron sobre la base de infracciones masivas de derechos de autor y prosperaron solo hasta que hubo desafíos legales que llevaron a nuevos acuerdos que respetaban los derechos de autor.
“Entonces, a principios de la década de 2000, tenías Napster, que a todos les encantaba pero era completamente ilegal. Y hoy, tenemos cosas como Spotify e iTunes”, dijo a The Verge a principios de este mes Matthew Butterick, un abogado que actualmente está demandando a las empresas por recopilar datos para entrenar modelos de IA . “¿Y cómo surgieron estos sistemas? Por empresas que hacen acuerdos de licencia y traen contenido de forma legítima. Todas las partes interesadas se sentaron a la mesa e hicieron que funcionara, y la idea de que algo similar no puede suceder con la IA es, para mí, un poco catastrófica”.
Las empresas y los investigadores ya están experimentando con formas de compensar a los creadores.
Ryan Khurana de Wombo predijo un resultado similar. “La música tiene, con mucho, las reglas de derechos de autor más complejas debido a los diferentes tipos de licencias, la variedad de titulares de derechos y los diversos intermediarios involucrados”, dijo a The Verge . “Dados los matices [de las cuestiones legales que rodean a la IA], creo que todo el campo generativo evolucionará hacia un régimen de licencias similar al de la música”.
También se están probando otras alternativas. Shutterstock, por ejemplo, dice que planea establecer un fondo para compensar a las personas cuyo trabajo se vende a empresas de IA para entrenar a sus modelos, mientras que DeviantArt ha creado una etiqueta de metadatos para las imágenes compartidas en la web que advierte a los investigadores de IA que no raspen su contenido. . (Al menos una pequeña red social, Cohost, ya adoptó la etiqueta en su sitio y dice que si descubre que los investigadores están raspando sus imágenes a pesar de todo, “no descartará acciones legales”). Sin embargo, estos enfoques han cumplido con respuestas mixtas de las comunidades artísticas. ¿Pueden las tasas únicas de licencia compensar la pérdida de sustento? ¿Y cómo se despliega ahora una etiqueta sin raspado?ayudar a los artistas cuyo trabajo ya se ha utilizado para entrenar el sistema comercial de IA?
Para muchos creadores, parece que el daño ya está hecho. Pero las nuevas empresas de IA al menos sugieren nuevos enfoques para el futuro. Un paso adelante obvio es que los investigadores de IA simplemente creen bases de datos en las que no haya posibilidad de infracción de derechos de autor, ya sea porque el material tiene la licencia adecuada o porque se creó con el propósito específico de la capacitación en IA. Un ejemplo de ello es ” The Stack” , un conjunto de datos para entrenar IA diseñado para evitar específicamente acusaciones de infracción de derechos de autor. Incluye solo código con la licencia de código abierto más permisiva posible y ofrece a los desarrolladores una manera fácil de eliminar sus datos a pedido. Sus creadores dicen que su modelo podría usarse en toda la industria.
“El enfoque de The Stack se puede adaptar absolutamente a otros medios”, dijo a The Verge Yacine Jernite, líder de Machine Learning & Society en Hugging Face, que ayudó a crear The Stack en colaboración con el socio ServiceNow . “Es un primer paso importante para explorar la amplia gama de mecanismos que existen para el consentimiento, mecanismos que funcionan de la mejor manera cuando tienen en cuenta las reglas de la plataforma de la que se extrajeron los datos de entrenamiento de IA”. Jernite dice que Hugging Face quiere ayudar a crear un “cambio fundamental” en la forma en que los investigadores de IA tratan a los creadores. Pero hasta ahora, el enfoque de la empresa sigue siendo una rareza.
¿Qué pasa después?
Independientemente de dónde aterricemos en estas cuestiones legales, los diversos actores en el campo de la IA generativa ya se están preparando para… algo. Las empresas que ganan millones con esta tecnología se están atrincherando: declaran repetidamente que todo lo que hacen es legal (mientras que, presumiblemente, esperan que nadie cuestione esta afirmación). Al otro lado de la tierra de nadie, los titulares de los derechos de autor están marcando sus propias posiciones tentativas sin comprometerse del todo con la acción. Getty Images recientemente prohibió el contenido de IA debido al riesgo legal potencial para los clientes (“No creo que sea responsable. Creo que podría ser ilegal”, dijo el mes pasado a The Verge el CEO Craig Peters ) mientras que la organización comercial de la industria de la música RIAA declaró que la IA -Mezcladores y extractores de música autoamplificadosestán infringiendo los derechos de autor de los miembros (aunque no fueron tan lejos como para lanzar ningún desafío legal real).
Sin embargo, el primer disparo en la guerra de los derechos de autor de la IA ya se disparó con el lanzamiento la semana pasada de una demanda colectiva propuesta contra Microsoft, GitHub y OpenAI . El caso acusa a las tres empresas de reproducir a sabiendas código fuente abierto a través del asistente de codificación de IA, Copilot, pero sin las licencias adecuadas. Hablando con The Verge la semana pasada, los abogados detrás de la demanda dijeron que podría sentar un precedente para todo el campo de la IA generativa (aunque otros expertos lo cuestionaron, diciendo que cualquier desafío de derechos de autor relacionado con el código probablemente estaría separado de los relacionados con contenido como el arte y la música). .
“Sin embargo, una vez que alguien descubre la tapadera, creo que las demandas comenzarán a volar de izquierda a derecha”.
Mientras tanto, Guadamuz y Baio dicen que están sorprendidos de que aún no haya habido más desafíos legales. “Honestamente, estoy estupefacto”, dice Guadamuz. “Pero creo que eso se debe en parte a que estas industrias tienen miedo de ser las primeras [en demandar] y perder una decisión. Sin embargo, una vez que alguien descubre la tapadera, creo que las demandas comenzarán a volar de izquierda a derecha”.
Baio sugirió que una dificultad es que muchas de las personas más afectadas por esta tecnología (artistas y similares) simplemente no están en una buena posición para iniciar desafíos legales. “No tienen los recursos”, dice. “Este tipo de litigio es muy costoso y requiere mucho tiempo, y solo lo hará si sabe que va a ganar. Es por eso que he pensado durante algún tiempo que las primeras demandas en torno al arte de IA serán de sitios de imágenes de archivo. Parecen estar a punto de perder al máximo con esta tecnología, pueden demostrar claramente que una gran parte de su corpus se utilizó para entrenar estos modelos y tienen los fondos para llevarlo a los tribunales”.
Guadamuz está de acuerdo. “Todo el mundo sabe lo caro que va a ser”, dice. “Quienquiera que demande obtendrá una decisión en los tribunales inferiores, luego apelará, luego volverá a apelar y, finalmente, podría llegar hasta la Corte Suprema”.
Fuente: theverge