Ahora que las imágenes generadas por ordenador están al alcance de cualquiera con una idea rara y una conexión a Internet, la creación de "arte por IA" está suscitando preguntas y demandas. Las cuestiones clave parecen ser 1) cómo funciona realmente, 2) qué trabajo puede sustituir y 3) cómo puede respetarse el trabajo de los artistas con este cambio.
Los pleitos sobre la IA giran, en gran parte, en torno a los derechos de autor. Estas cuestiones son tan complejas que les hemos dedicado un artículo entero. Aquí nos centraremos en cuestiones no jurídicas más espinosas.
¿Cómo funcionan los generadores de arte por IA?
Hay dos partes diferentes en la vida de una IA generadora de arte. La primera son los datos que le enseñan qué es un "perro" o, de forma más abstracta, qué aspecto tiene la "ira". En segundo lugar están los resultados que la máquina da en respuesta a las instrucciones. Al principio, cuando el generador no ha recibido suficiente entrenamiento, los resultados sólo reflejan vagamente las instrucciones. Pero, con el tiempo, el generador habrá visto suficientes imágenes para averiguar cómo responder correctamente a una indicación (así es como lo hace la gente). Los contenidos creativos generados por IA pueden ir desde "sugerencia basada en una imagen que vi en un sueño febril" a "entrada de blog muy mal escrita".
¿Cómo "aprende" un generador de arte artificial?
Los generadores de arte de IA dependen del "aprendizaje automático". En un proceso de aprendizaje automático, un algoritmo de entrenamiento toma un enorme conjunto de datos y analiza las relaciones entre sus diferentes aspectos. Un generador de arte de IA se entrena con imágenes y con el texto que describe esas imágenes.
Una vez analizadas las relaciones entre las palabras y las características de los datos de la imagen, el generador puede utilizar este conjunto de asociaciones para producir nuevas imágenes. Así es como es capaz de tomar un texto de entrada -como "perro"- y generar (es decir, "producir") arreglos de píxeles que asocia con la palabra, basándose en sus datos de entrenamiento.
La naturaleza de estos "resultados" depende de los datos de entrenamiento del sistema, de su modelo de entrenamiento y de las decisiones que tomen sus creadores humanos.
Por ejemplo: un modelo entrenado alimentándolo con imágenes etiquetadas con texto que aparece cerca de esas imágenes en páginas web públicas no será tan bueno a la hora de emparejar "indicaciones" como lo sería si se hubiera entrenado con imágenes anotadas manualmente con etiquetas explícitas generadas por humanos.
Este proceso no difiere demasiado de cómo aprenden las cosas los bebés. Por ejemplo, muchos niños creen que todos los animales son "perritos" hasta que están lo suficientemente expuestos y reciben la corrección de los adultos como para distinguir "perrito" de "caballito". El aprendizaje automático puede cometer errores similares, encontrando conexiones que, para los humanos, son oscuras. Por ejemplo, un clasificador de cáncer puede "aprender" que una imagen muestra un tumor si esa imagen contiene una regla. La IA aprendió un atajo: las imágenes de estructuras que un radiólogo ha identificado como tumores cancerosos tienen imágenes con reglas para la escala y para rastrear el tamaño. Las imágenes de entrenamiento de tumores benignos procedían de un conjunto diferente y no tenían reglas.
Más allá del efecto de la calidad de los datos de entrenamiento, también está el efecto de los diferentes "modelos" de entrenamiento. Estos modelos reciben nombres como "difusión" o "redes generativas adversariales" (GAN). Cada uno de estos modelos tiene sus puntos fuertes y sus puntos débiles (en el momento de escribir estas líneas, los modelos de difusión se consideran generalmente los más avanzados).
Durante el entrenamiento, los programadores introducen variables que determinan la similitud de la salida del modelo con las imágenes de sus datos de entrenamiento. Otras variables determinan si el sistema da prioridad a la creación de imágenes que coincidan con las indicaciones del usuario, o si es más experimental y muestra imágenes en las que el modelo tiene menos "confianza" (un término matemático que describe un tipo de certeza estadística). Algunos modelos permiten a los usuarios ajustar estas variables cuando envían las preguntas al modelo.
¿De dónde proceden los datos de entrenamiento?
En general, los datos de entrenamiento proceden del scraping de la web: encontrar imágenes disponibles que tengan texto asociado (en algunos casos, las anotaciones se añaden posteriormente). Esto significa que los creadores de las imágenes o las personas que aparecen en ellas probablemente no saben o no consienten expresamente que se les incluya en el análisis. En el caso del sistema "Stable Diffusion", objeto de dos demandas recientes -una demanda colectiva en nombre de varios artistas visuales y otra interpuesta por Getty Images-, el conjunto de datos está formado por 5.000 millones de imágenes indexadas por una organización sin ánimo de lucro llamada LAION.
Para un análisis de los problemas de derechos de autor relacionados con esos conjuntos de formación, véase nuestra otra entrada en el blog.
Sustitución laboral e IA
A muchos artistas les preocupa que la disponibilidad del arte de la IA suponga un menor mercado para su trabajo. Es una preocupación válida: hay algunos servicios prestados por artistas que probablemente podrían ser sustituidos por generadores de IA. Ya ocurrió anteriormente con la transcripción: los sistemas de aprendizaje automático sustituyeron algunas transcripciones humanas. Sin embargo, estos sistemas automatizados producen resultados que suelen ser de baja calidad, como puede atestiguar cualquiera que haya visto subtítulos autogenerados.
De hecho, los problemas que plantea la automatización de la mano de obra se remontan a siglos atrás: los sustitutos automatizados que pueden ser propiedad absoluta de los empresarios o que simplemente son más baratos que pagar a un trabajador pueden dar lugar a que haya menos personas con trabajo. En un mundo perfecto, la automatización se utilizaría para liberar a las personas y que pudieran dedicarse a los asuntos que les interesan, pero ese no es el mundo en el que vivimos (todavía), por lo que es natural y válido que los trabajadores se preocupen de que la automatización reduzca los salarios o les expulse de su sector.
El debate sobre el arte de la IA no se limita a las preocupaciones generales sobre la automatización y la falta de apoyo a las personas que se han quedado sin trabajo; también se trata de si esa generación de arte de la IA es especialmente injusta porque gran parte de sus datos de entrenamiento consisten en imágenes protegidas por derechos de autor utilizadas sin permiso. Hablamos de ello en el otro post.
Más allá de las preocupaciones por el mercado laboral y la equidad, existe un riesgo real de que el arte de la IA dé a unas pocas corporaciones un control aún mayor sobre la creatividad futura. La mayor parte del acceso al arte ya está controlado por unos pocos grandes guardianes, que no tienen ningún interés en la subsistencia de los artistas ni apetito por el riesgo.
Por ejemplo, Getty Images, demandante en una de las demandas contra la generación de arte por IA, ha acaparado el mercado de las imágenes de archivo y de eventos. La mayoría de las agencias de noticias recurren a Getty porque es casi seguro que tendrá una imagen del tema de un artículo en una alfombra roja. Sin Getty, las empresas de medios de comunicación habrían tenido que enviar un fotógrafo a cada evento o averiguar qué fotógrafos independientes estaban presentes en él e intentar obtener licencias de sus imágenes. Como monopolio, Getty perjudica tanto a los fotógrafos independientes como a los medios de comunicación.
En su demanda, Getty cita una imagen generada por IA que produjo una versión distorsionada de su marca de agua. Getty afirma que esto es una prueba de que sus materiales protegidos por derechos de autor se encuentran en la salida de un generador de imágenes, pero lo que realmente ocurre es que el generador de imágenes ha "aprendido" que cualquier imagen de una alfombra roja contiene una marca de agua de Getty, por lo que dibuja la marca de agua en imágenes que parecen "como Getty". En otras palabras, Getty tiene tal control sobre cierto tipo de fotografía noticiosa que un análisis estadístico de todas las fotos noticiosas de celebridades concluirá que Getty es inseparable de ese tipo de fotografía. Una marca de agua Getty es a una imagen de un famoso lo que una regla a un tumor.
Dejar que las empresas controlen la IA aplanará nuestro mundo creativo
Por el momento, existen modelos de código abierto y de libre acceso para los generadores de arte de IA, y cualquiera puede modificarlos de forma innovadora e innovar con ellos. Pero si el entorno legal o la tecnología cambiaran para que solo unas pocas grandes empresas pudieran crear o utilizar modelos artísticos de IA, nuestro mundo creativo sería aún más homogéneo y aséptico.
Por ejemplo, los grandes despliegues comerciales de modelos de difusión ya rechazan las consultas que puedan conducir a imágenes de desnudos, que por supuesto no son intrínsecamente perjudiciales, ilegales o inmorales, y tienen una larga historia en la expresión artística. Las restricciones de mano dura sobre temas "para adultos" son especialmente duras para las personas cuyas identidades se etiquetan erróneamente como obscenas, intrínsecamente sexuales o "sólo para adultos" (incluidas las personas queer), borrándolas del mundo generado por estas herramientas.
El sesgo de los generadores de arte de IA no tiene por qué ser el resultado de una censura explícita y activa; también puede proceder de un sesgo en sus datos de entrenamiento. Por ejemplo, una herramienta artística de IA puede generar imágenes de personas blancas por defecto, reforzando la desigualdad racial, o tender hacia la piel clara en respuesta a las peticiones de personas "bellas". Las imágenes de mujeres tienen más probabilidades de ser codificadas como de naturaleza sexual que las imágenes de hombres en estados similares de vestimenta y actividad, debido a la cosificación cultural generalizada de la mujer tanto en las imágenes como en el texto que las acompaña. Un generador de arte de IA puede "aprender" a encarnar la injusticia y los prejuicios de la época y la cultura de los datos de entrenamiento con los que se entrena. Los generadores de arte de IA producen a veces novedades sorprendentes, pero favorecen predominantemente los valores y la estética del pasado. Los modelos tienden a recrear lo que ven una y otra vez, lo que hace que su producción tienda hacia la media y lo típico, a expensas de la estética y la identidad minoritarias.
Otra cosa a tener en cuenta: Los generadores de arte de IA pueden depender de información privada y revelarla. Imagina que le pides a un generador de arte de IA que genere imágenes relacionadas con una afección médica y ves a una persona reconocible en el resultado (esto podría ocurrir si el modelo no se entrenó con muchas imágenes relacionadas con esa afección).
Por último, como ha ocurrido con las "falsificaciones profundas", es posible utilizar el aprendizaje automático para generar imágenes engañosas que muestren a personas reales haciendo cosas que nunca hicieron. Esas imágenes pueden avergonzar o difamar a la persona o perjudicar de otro modo su vida social y económica.
Sin embargo, esas imágenes también pueden utilizarse para hacer comentarios sociales importantes, o simplemente como arte, cuando no se hacen pasar por hechos reales. Cuando vemos la imagen de un político prendiendo fuego a la Constitución, entendemos que no quemó literalmente el documento, sino que el creador de la imagen está comentando la política del político.
Se trata de una situación en la que cada uso debería evaluarse por sus propios méritos, en lugar de prohibir una tecnología que tiene usos tanto positivos como negativos. Al igual que con la fotomanipulación, es importante que aprendamos a determinar qué es real. Por ejemplo, las normas en torno a la fotomanipulación paródica exageran la sensación de edición tanto como parte de la parodia como para dejar clara la broma.
Cómo será el mundo si los creadores de IA necesitan permiso de los titulares de derechos
Consulte nuestro otro blog para conocer nuestra opinión sobre los derechos de autor y por qué no creemos que los generadores de arte de IA puedan infringirlos. Sin embargo, a efectos de este debate, imaginemos que no se puede entrenar un modelo de IA con información protegida por derechos de autor sin permiso.
Exigir a una persona que utiliza un generador de IA que obtenga una licencia de todos los que tienen derechos sobre una imagen en el conjunto de datos de entrenamiento es poco probable que elimine este tipo de tecnología. Más bien tendrá el efecto perverso de limitar el desarrollo de esta tecnología a las empresas más grandes, que pueden reunir un conjunto de datos obligando a sus trabajadores a ceder el "derecho de formación" como condición para el empleo o la creación de contenidos.
Sería una victoria pírrica para quienes se oponen a la idea misma del arte de la IA: a corto plazo, las herramientas de IA dejarían de existir o producirían resultados de menor calidad, lo que reduciría el potencial de hacer bajar los salarios de los creadores.
Pero a medio y largo plazo, es probable que este efecto sea el contrario. Los mercados laborales creativos están intensamente concentrados: un pequeño número de empresas -incluida Getty- encargan millones de obras cada año a creadores en activo. Estas empresas ya disfrutan de un enorme poder de negociación, lo que significa que pueden someter a los artistas a condiciones estándar y no negociables que dan a las empresas demasiado control, a cambio de una compensación demasiado pequeña.
Si el derecho a entrenar a un modelo depende del permiso del titular de los derechos de autor, entonces estas grandes empresas podrían simplemente modificar sus contratos para exigir a los creadores que renuncien a sus derechos de entrenamiento de modelos como condición para hacer negocios. Eso es lo que están haciendo las empresas de videojuegos que emplean a legiones de actores de doblaje, que exigen a los actores de doblaje que empiecen cada sesión grabándose a sí mismos y renunciando a cualquier derecho a controlar si se puede entrenar a un modelo a partir de sus voces.
Si grandes empresas como Getty obtienen el derecho a controlar la formación de modelos, podrían adquirir simplemente los derechos de formación de cualquier trabajador creativo que desee hacer negocios con ellas. Y como el mayor gasto de Getty son los honorarios que paga a los trabajadores creativos, honorarios que no debería en caso de que pudiera utilizar un modelo para sustituir las imágenes de sus trabajadores, tiene un poderoso incentivo para producir un modelo de alta calidad que sustituya a esos trabajadores.
Esto daría lugar al peor de los mundos: las empresas que hoy acaparan el mercado de la mano de obra creativa podrían utilizar modelos de IA para sustituir a sus trabajadores, mientras que a los particulares que rara vez -o nunca- tienen motivos para encargar un trabajo creativo se les prohibiría utilizar herramientas de IA para expresarse.
Esto permitiría al puñado de empresas que pagan a los trabajadores creativos por la ilustración -como el duopolio que controla casi toda la creación de cómics o el monopolio que controla la mayoría de los juegos de rol- exigir a los ilustradores que renuncien a sus derechos de formación de modelos y sustituir a sus ilustradores remunerados por modelos. Las grandes corporaciones no tendrían que pagar a los creadores, y el director general de tu sesión de juego semanal no podría utilizar un modelo de inteligencia artificial para crear una ayuda visual para un encuentro clave, ni un niño podría hacer su propio cómic utilizando indicaciones de texto.
Enfoques de la IA que respetan a los artistas
El Writer's Guild of America-West está renegociando su convenio básico mínimo. Este acuerdo establece la base para acreditar y pagar a los guionistas de diversas industrias creativas, como el cine y la televisión. La propuesta de IA del Gremio tiene algunos problemas técnicos que reflejan una comprensión incompleta del funcionamiento de la tecnología, pero desde una perspectiva laboral, demuestra una excelente propuesta para la producción generada por IA que, aunque no comprende perfectamente el funcionamiento de la tecnología, capta muy bien la preocupación central en cuestión.
La propuesta principal del gremio es la siguiente: El material generado por IA no puede reemplazar a un escritor humano. El material generado por IA no puede considerarse material original para adaptación de ningún tipo. El trabajo generado por la IA puede utilizarse como material de investigación, al igual que un artículo de Wikipedia, pero debido a la naturaleza poco clara de las fuentes que entran en su producción y cómo se genera la producción, no tiene lugar como "autor" en el mundo de los derechos de autor. En opinión del gremio, los resultados de la IA no son susceptibles de derechos de autor.
Eso significa que si un estudio quiere utilizar un guión generado por IA, no puede haber autor acreditado ni derechos de autor. En un mundo en el que los estudios guardan celosamente los derechos de sus obras, eso es un gran veneno. Con esta propuesta, los estudios deben elegir entre el coste inicial de pagar a un guionista lo que vale y el coste final de no tener control sobre los derechos de autor del producto.
Se trata de una estrategia inteligente que se centra en el ámbito del gremio: proteger a sus miembros. Dicho esto, la concepción que tiene el gremio de la tecnología es un poco errónea: el gremio afirma que la IA crea un mosaico a partir de sus datos de entrenamiento. Esto es menos cierto de lo que afirma el gremio, y el resultado de la IA no infringe tan a menudo como ellos insinúan. Pero a pesar de estos errores técnicos, la forma en que el Gremio la considera como una herramienta es muy inteligente (de nuevo, aquí está nuestro análisis de la situación de los derechos de autor del arte de la IA).
Para el gremio, la escritura generada por IA no tiene cabida en las obras cubiertas por el Guild. Si un estudio hace algo que está cubierto por este acuerdo, tiene que contratar a un escritor humano y pagar la tarifa negociada por el gremio (o más). El material de IA no puede utilizarse para rebajar esa mano de obra. La IA es una herramienta para ayudar a los guionistas, no un sustituto de los guionistas.
Así es como debe verse toda la tecnología en relación con el trabajo artístico: como una herramienta artística, no como un sustituto de los artistas. Una prohibición generalizada de la IA no solucionará las desigualdades de un mercado altamente concentrado, pero podría costarnos los apasionantes usos de esta tecnología para la expresión creativa.
Cosas emocionantes sobre la generación de arte con IA
Cualquier avance que ofrezca a más personas la posibilidad de expresarse de una forma nueva es emocionante. Por cada imagen que desplaza un posible encargo de bajo coste para un artista en activo, hay muchas más que no desplazan a nadie: imágenes creadas por personas que se expresan o que añaden arte a proyectos que simplemente no se habrían ilustrado. Recuerde: el principal impacto de la tecnología de traducción automática no fue el desplazamiento de los traductores, sino la creación de formas gratuitas y sencillas de leer tweets y páginas web en otros idiomas cuando, de otro modo, una persona simplemente no sabría lo que se está diciendo.
Cuando la gente utiliza herramientas de IA, se produce un tipo de "creatividad" diferente de la que producen los artistas humanos por sí solos, ya que la herramienta encuentra asociaciones e imágenes que las personas sin ayuda no habían hecho antes. Los generadores artísticos de IA también pueden ayudar a los artistas en activo de varias maneras, por ejemplo, produciendo un primer borrador o automatizando tareas que llevan mucho tiempo, como sombrear una imagen plana. Este sería el equivalente artístico del argumento del material de investigación esgrimido por la WGA.
Hay muchas cosas buenas en los generadores de arte. El problema de cara al futuro es mantener las cosas buenas -la tecnología de código abierto que los investigadores pueden auditar, la reducción de las partes tediosas de hacer cosas- sin dejar que las preocupaciones den poder a las mismas empresas que desempoderan a los artistas cada día.