Bloquear Internet Archive no detendrá la IA, pero borrará el registro histórico de la web

Share It

English

Imagina que una editorial de periódicos anunciara que ya no permitirá que las bibliotecas conserven copias de su periódico.

Eso es, en efecto, lo que ha empezado a ocurrir en Internet en los últimos meses. Internet Archive —la biblioteca digital más grande del mundo— lleva conservando periódicos desde que se puso en línea a mediados de la década de 1990. La misión de Internet Archive es preservar la web y hacerla accesible al público. Con ese fin, la organización gestiona la Wayback Machine, que actualmente contiene más de un billón de páginas web archivadas y es utilizada a diario por periodistas, investigadores y tribunales.

Sin embargo, en los últimos meses, The New York Times ha comenzado a impedir que Archive rastree su sitio web, utilizando medidas técnicas que van más allá de las normas tradicionales del archivo robots.txt. Esto supone el riesgo de perder un registro en el que historiadores y periodistas han confiado durante décadas. Otros periódicos, entre ellos The Guardian, parecen estar siguiendo su ejemplo.

Durante casi tres décadas, historiadores, periodistas y el público en general han confiado en Internet Archive para conservar los sitios web de noticias tal y como aparecían en línea. Esas páginas archivadas suelen ser el único registro fiable de cómo se publicaron originalmente las noticias. En muchos casos, los artículos se editan, se modifican o se eliminan, a veces de forma abierta y otras no. Internet Archive se convierte a menudo en la única fuente para ver esos cambios. Cuando las principales editoriales bloquean los rastreadores de Internet Archive, ese registro histórico empieza a desaparecer.

El Times afirma que la medida obedece a la preocupación por el rastreo de contenidos informativos por parte de las empresas de IA. Las editoriales buscan controlar cómo se utiliza su trabajo, y varias de ellas —incluido el Times— están demandando ahora a empresas de IA por considerar que entrenar modelos con material protegido por derechos de autor viola la ley. Existen argumentos sólidos a favor de que dicho entrenamiento constituya un uso legítimo .

Sea cual sea el resultado de esos litigios, bloquear a los archiveros sin ánimo de lucro es una respuesta equivocada. Organizaciones como Internet Archive no están creando sistemas de IA comerciales. Están preservando un registro de nuestra historia. Desactivar esa preservación en un intento por controlar el acceso de la IA podría, en esencia, quemar décadas de documentación histórica por una lucha que bibliotecas como el Archivo no iniciaron y no pidieron.

Si las editoriales excluyen a Internet Archive, no solo están limitando a los bots. Están borrando el registro histórico.

El archivo y la búsqueda son legales

Hacer que el material sea consultable es un caso de uso legítimo bien establecido . Los tribunales reconocen desde hace tiempo que a menudo es imposible crear un índice consultable sin realizar copias del material original. Por eso, cuando Google copió libros completos para crear una base de datos consultable, los tribunales lo reconocieron acertadamente como un claro caso de uso legítimo. La copia tenía un propósito transformador: facilitar el descubrimiento, la investigación y la obtención de nuevos conocimientos sobre las obras creativas.

Internet Archive funciona según el mismo principio. Al igual que las bibliotecas físicas conservan los periódicos para los lectores del futuro, el Archivo conserva el registro histórico de la web. Investigadores y periodistas confían en él cada día. Según el personal del Archivo, solo Wikipedia enlaza a más de 2,6 millones de artículos de noticias conservados en el Archivo, que abarcan 249 idiomas. Y ese es solo un ejemplo. Innumerables blogueros, investigadores y periodistas dependen del Archivo como un registro estable y fidedigno de lo que se ha publicado en línea.

Los mismos principios jurídicos que protegen a los motores de búsqueda también deben proteger a los archivos y las bibliotecas. Aunque los tribunales impongan límites al entrenamiento de la IA, la legislación que protege la búsqueda y el archivo web ya está bien establecida.

Internet Archive lleva casi treinta años conservando el registro histórico de la web. Si las grandes editoriales comienzan a obstaculizar esa misión, los futuros investigadores podrían encontrarse con que gran parte de ese registro histórico simplemente ha desaparecido. Existen disputas reales sobre el entrenamiento de la IA que deben resolverse en los tribunales. Pero sacrificar el registro público para librar esas batallas sería un error profundo y, posiblemente, irreversible.

Related Issues

Artificial Intelligence

Creativity & Innovation

Related Updates

Deeplinks Blog by Jillian C. York, Corynne McSherry | July 7, 2026

Automated Moderation Is Here to Stay

This blog post is part 1 of a 2-part series. The second part will set out recommendations for companies and policymakers.Six years ago—one month into a global pandemic—we argued that the automated moderation processes many platforms were rapidly adopting should be highly transparent, easily appealable, and temporary. We warned...

Deeplinks Blog by Aaron Jue | July 7, 2026

Help EFF Cut the AI Hype

AI has thrust technology and our economy into a new era, and you can help EFF fight for the people. Our team is with you to ensure that tech doesn't sacrifice your privacy and free expression.

Deeplinks Blog by Tori Noble, Corynne McSherry | June 18, 2026

La regulación de la IA debería ser racional, no punitiva

El enfoque de la administración Trump respecto a la seguridad de la IA, sobre todo en lo que se refiere a los modelos de IA generativa que suelen acaparar los titulares, ha sido, en el mejor de los casos, un poco desorganizado. En el peor, es inconstitucional. Tal y como...

Deeplinks Blog by Tori Noble | June 17, 2026

La web libre y abierta está siendo atacada en la IETF

La posibilidad de acceder a información disponible públicamente mediante herramientas automatizadas es un valor y una ventaja fundamentales de una Internet libre y abierta. El acceso automatizado —que a menudo se conoce como «crawling» o «scraping»— es la base de herramientas importantes y útiles para localizar, conservar y analizar información...

Deeplinks Blog by Josh Richman | June 11, 2026

‘News’ Site Keeps Hallucinating EFF Staffers

What do EFF staffers Sarah Chen, Javier Morales, Caitlin Chin, Emma Rodriguez, and Mikko Kopponen have in common? For one thing, they don’t exist. For another, all have been quoted...

Deeplinks Blog by Josh Richman | June 4, 2026

EFF Testifies to Congress on Protecting Americans’ Rights from Government AI

Governments must not adopt emerging and powerful AI technologies without also adopting strong and clear safeguards to protect Constitutional rights, EFF Senior Policy Analyst Dr. Matthew Guariglia testified today to the House Homeland Security Subcommittee on Cybersecurity and Infrastructure Protection.

Deeplinks Blog by Corynne McSherry | April 3, 2026

Organizaciones tecnológicas sin fines de lucro al gobierno federal: No conviertan las contrataciones públicas en un arma para socavar la confianza y la seguridad de la IA

Mientras continúa la sonada batalla entre el Departamento de Defensa y Anthropic sobre si el gobierno puede sancionar a una empresa por negarse a que su tecnología se use para la vigilancia masiva, otra agencia del gobierno estadounidense trabaja en silencio para asegurarse de que esta disputa no vuelva...

Legal Case

EFF v. CMS

The Electronic Frontier Foundation has filed a Freedom of Information Act (FOIA) lawsuit to obtain records from the Centers for Medicare & Medicaid Services (CMS) about a multi-state program using AI to evaluate requests for medical care.Launched January 2026, the program known as WISeR (Wasteful and Inappropriate Service Reduction) uses...

Press Release | March 25, 2026

EFF Sues for Answers About Medicare's AI Experiment

SAN FRANCISCO – The Electronic Frontier Foundation (EFF) today filed a Freedom of Information Act (FOIA) lawsuit against the Centers for Medicare & Medicaid Services (CMS) seeking records about a multi-state program that is using AI to evaluate requests for medical care.

Deeplinks Blog by Corynne McSherry, Tori Noble | March 10, 2026

El Gobierno no debe obligar a las empresas a tomar parte en la vigilancia basada en la IA

El conflicto entre Anthropic y el Pentágono, que se ha intensificado rápidamente y que empezó cuando la empresa se negó a dejar que el Gobierno usara su tecnología para espiar a los estadounidenses, ha llegado ahora a los tribunales. El Departamento de Defensa tomó represalias al calificar a la...

Related Issues

Artificial Intelligence

Creativity & Innovation

Bloquear Internet Archive no detendrá la IA, pero borrará el registro histórico de la web

Bloquear Internet Archive no detendrá la IA, pero borrará el registro histórico de la web

El archivo y la búsqueda son legales

Related Issues

Related Updates

Related Issues

Follow EFF:

Contact

About

Issues

Updates

Press

Donate