Imagina que una editorial de periódicos anunciara que ya no permitirá que las bibliotecas conserven copias de su periódico.

Eso es, en efecto, lo que ha empezado a ocurrir en Internet en los últimos meses. Internet Archive —la biblioteca digital más grande del mundo— lleva conservando periódicos desde que se puso en línea a mediados de la década de 1990. La misión de Internet Archive es preservar la web y hacerla accesible al público. Con ese fin, la organización gestiona la Wayback Machine, que actualmente contiene más de un billón de páginas web archivadas y es utilizada a diario por periodistas, investigadores y tribunales.

Sin embargo, en los últimos meses, The New York Times ha comenzado a impedir que Archive rastree su sitio web, utilizando medidas técnicas que van más allá de las normas tradicionales del archivo robots.txt. Esto supone el riesgo de perder un registro en el que historiadores y periodistas han confiado durante décadas. Otros periódicos, entre ellos The Guardian, parecen estar siguiendo su ejemplo.

Durante casi tres décadas, historiadores, periodistas y el público en general han confiado en Internet Archive para conservar los sitios web de noticias tal y como aparecían en línea. Esas páginas archivadas suelen ser el único registro fiable de cómo se publicaron originalmente las noticias. En muchos casos, los artículos se editan, se modifican o se eliminan, a veces de forma abierta y otras no. Internet Archive se convierte a menudo en la única fuente para ver esos cambios. Cuando las principales editoriales bloquean los rastreadores de Internet Archive, ese registro histórico empieza a desaparecer.

El Times afirma que la medida obedece a la preocupación por el rastreo de contenidos informativos por parte de las empresas de IA. Las editoriales buscan controlar cómo se utiliza su trabajo, y varias de ellas —incluido el Times— están demandando ahora a empresas de IA por considerar que entrenar modelos con material protegido por derechos de autor viola la ley. Existen argumentos sólidos a favor de que dicho entrenamiento constituya un uso legítimo .

Sea cual sea el resultado de esos litigios, bloquear a los archiveros sin ánimo de lucro es una respuesta equivocada. Organizaciones como Internet Archive no están creando sistemas de IA comerciales. Están preservando un registro de nuestra historia. Desactivar esa preservación en un intento por controlar el acceso de la IA podría, en esencia, quemar décadas de documentación histórica por una lucha que bibliotecas como el Archivo no iniciaron y no pidieron.

Si las editoriales excluyen a Internet Archive, no solo están limitando a los bots. Están borrando el registro histórico.

El archivo y la búsqueda son legales

Hacer que el material sea consultable es un caso de uso legítimo bien establecido  . Los tribunales reconocen desde hace tiempo que a menudo es imposible crear un índice consultable sin realizar copias del material original. Por eso, cuando Google copió libros completos para crear una base de datos consultable, los tribunales lo reconocieron acertadamente como un claro caso de uso legítimo. La copia tenía un propósito transformador: facilitar el descubrimiento, la investigación y la obtención de nuevos conocimientos sobre las obras creativas.

Internet Archive funciona según el mismo principio. Al igual que las bibliotecas físicas conservan los periódicos para los lectores del futuro, el Archivo conserva el registro histórico de la web. Investigadores y periodistas confían en él cada día. Según el personal del Archivo, solo Wikipedia enlaza a más de 2,6 millones de artículos de noticias conservados en el Archivo, que abarcan 249 idiomas. Y ese es solo un ejemplo. Innumerables blogueros, investigadores y periodistas dependen del Archivo como un registro estable y fidedigno de lo que se ha publicado en línea.

Los mismos principios jurídicos que protegen a los motores de búsqueda también deben proteger a los archivos y las bibliotecas. Aunque los tribunales impongan límites al entrenamiento de la IA, la legislación que protege la búsqueda y el archivo web ya está bien establecida.

Internet Archive lleva casi treinta años conservando el registro histórico de la web. Si las grandes editoriales comienzan a obstaculizar esa misión, los futuros investigadores podrían encontrarse con que gran parte de ese registro histórico simplemente ha desaparecido. Existen disputas reales sobre el entrenamiento de la IA que deben resolverse en los tribunales. Pero sacrificar el registro público para librar esas batallas sería un error profundo y, posiblemente, irreversible.