Grandes organizaciones de noticias están bloqueando activamente la Wayback Machine de Internet Archive para evitar que su contenido se utilice en el entrenamiento de modelos de inteligencia artificial.
Un análisis de Originality AI revela que 23 importantes sitios de noticias bloquean ahora el 'ia_archiverbot', el rastreador web de la Wayback Machine. Esta medida de restricción incluye medios de gran relevancia como The New York Times y Reddit.
USA Today Co. ha implementado bloqueos en toda su red de más de 200 medios de comunicación. The Guardian también está limitando el acceso, permitiendo el rastreo pero filtrando el contenido archivado para que no sea visible al público, lo que crea "callejones sin salida digitales" para los investigadores.
Los editores alegan preocupaciones sobre derechos de autor y competencia
Los editores sostienen que estas medidas son necesarias para impedir que las empresas de IA extraigan archivos con el fin de crear productos de la competencia. The New York Times afirmó que el contenido archivado se está utilizando "para competir directamente con nosotros", aunque la empresa no presentó pruebas específicas de violaciones de derechos de autor.
Por su parte, USA Today Co. describe sus acciones como una medida rutinaria de prevención contra bots. Sin embargo, este movimiento elimina una herramienta fundamental utilizada por los periodistas para verificar la precisión histórica y rastrear cambios editoriales.
Durante tres décadas, la Wayback Machine ha preservado más de un billón de páginas web. La actual ola de bloqueos amenaza la accesibilidad a largo plazo de la web pública, a medida que los editores priorizan la protección de su propiedad intelectual frente a los desarrolladores de modelos de lenguaje de gran tamaño.