为了防止自身内容被用于训练人工智能模型,多家主流新闻机构正采取积极措施,屏蔽 Internet Archive 旗下的 Wayback Machine 网页存档服务。
根据 Originality AI 的一项分析显示,目前已有 23 个大型新闻网站屏蔽了 Wayback Machine 的网页爬虫“ia_archiverbot”。此次封锁行动涉及多家知名媒体,包括《纽约时报》和 Reddit。
USA Today Co. 已在其旗下 200 多家媒体网络中实施了屏蔽措施。《卫报》也正在限制访问,采取的策略是允许爬取但过滤掉已存档的内容,使其无法在公众视野中显示,这实际上为研究人员制造了“数字死胡同”。
出版商称此举旨在应对版权及竞争担忧
出版商声称,这些措施对于阻止 AI 公司抓取存档内容以构建竞争产品至关重要。《纽约时报》表示,存档内容正被用于“与我们直接竞争”,尽管该公司并未提供版权侵权的具体证据。
USA Today Co. 则将此类行动描述为常规的防机器人措施。然而,这一举动也剥夺了记者用来核实历史准确性和追踪编辑变更的主要工具。
三十年来,Wayback Machine 已保存了超过一万亿个网页。随着出版商将保护知识产权(免受大语言模型开发者侵害)置于首位,这股屏蔽浪潮正威胁着公共网络内容的长期可访问性。