Medios bloquean a Internet Archive por entrenamiento de IA
Medios bloquean a Internet Archive por entrenamiento de IA

Al menos 245 organizaciones de noticias en nueve países han comenzado a bloquear el rastreador de Internet Archive, conocido como Wayback Machine, para impedir que sus contenidos sean utilizados sin autorización en el entrenamiento de modelos de inteligencia artificial (IA). Esta medida representa un cambio radical en la relación entre los medios y la entidad sin fines de lucro que durante décadas ha preservado la historia digital.

El origen del conflicto

Durante casi treinta años, la Wayback Machine funcionó como una biblioteca digital, capturando instantáneas de páginas web para evitar su pérdida por enlaces rotos o cierres de sitios. Sin embargo, el auge de la IA generativa ha transformado esta dinámica. Empresas como OpenAI, Google y Anthropic utilizan enormes volúmenes de datos para entrenar sus modelos, y los archivos de Internet Archive se han convertido en una fuente valiosa de contenido periodístico, a menudo protegido por muros de pago en los sitios originales.

Los editores denuncian que este uso constituye un "extractivismo digital", ya que las tecnológicas obtienen gratis material por el que los medios invierten millones en producción. Al indexar versiones archivadas de artículos, las empresas de IA evitan pagar suscripciones o negociar licencias, lo que socava el modelo de negocio del periodismo.

Banner ancho de Pickt — app de listas de compras colaborativas para Telegram

La respuesta técnica

Para protegerse, los medios han recurrido al archivo robots.txt, un protocolo estándar que indica a los rastreadores qué secciones de un sitio pueden visitar. Al incluir al rastreador de Internet Archive (ia_archiver) en la lista de exclusión, impiden que sus contenidos sean archivados. Esto tiene consecuencias profundas: se detiene la creación de un registro histórico público, lo que fragiliza la memoria digital.

Mark Graham, director de Internet Archive, ha calificado la situación como un "daño colateral" derivado del uso indebido por terceros. La organización ha implementado restricciones en la descarga masiva y limitado procesos automatizados para reducir el acceso indiscriminado, pero el daño a la confianza ya está hecho.

Implicaciones para la preservación histórica

El conflicto plantea preguntas filosóficas sobre la propiedad de la historia digital. Brewster Kahle, fundador de Internet Archive, advierte: "Estamos entrando en una era de fragmentación. El internet que conocíamos, donde buscadores y archivadores podían navegar libremente para organizar la información del mundo, se está cerrando tras muros técnicos y legales".

Organizaciones como Fight for the Future han impulsado iniciativas contra estos bloqueos, apoyadas por periodistas que alertan del riesgo de perder el acceso público a la información. Si la tendencia continúa, el registro histórico podría quedar en manos de bases de datos privadas, accesibles solo para quienes puedan pagar.

Un futuro incierto

La proliferación de bloqueos es un síntoma de una crisis más amplia: la pérdida de confianza en el espacio público digital. Los medios exigen acuerdos de licenciamiento que reconozcan el valor de su trabajo, mientras que los defensores de la preservación temen que la historia se privatice. El equilibrio entre la protección de la propiedad intelectual y el acceso universal al conocimiento sigue siendo el gran desafío de la era digital.

Banner post-artículo de Pickt — app de listas de compras colaborativas con ilustración familiar