Wiki Education近日发布了对2025年生成式人工智能(GenAI)在维基百科编辑中影响的深度调查结果,该组织负责英文维基百科约19%的新活跃编辑的引入工作。此次研究旨在为维基百科社区关于AI生成内容的讨论提供数据支持,特别是针对新内容贡献者面临的挑战。
该组织的核心结论是,维基百科编辑应避免直接复制粘贴来自ChatGPT等生成式AI聊天机器人的输出内容。他们在项目参与者中观察到GenAI文本的特征,如不恰当的粗体或项目符号列表,并专注于验证引用的真实性。
首席技术官Sage Ross利用Pangram检测工具对2022年以来新增的3078篇文章进行了全面扫描,发现178篇文章(约5.8%)被标记为AI生成内容,且使用率自2022年底以来稳步上升。研究人员随后对这些被标记的文章进行了细致的人工审查。
出乎意料的是,这些AI标记内容中仅有7%引用了不存在的虚假来源,这与普遍关注的“AI幻觉”有所不同。更具破坏性的是,超过三分之二的文章在验证时失败,这意味着声称引用了相关来源,但具体信息在原始文献中找不到。
当声称无法通过验证时,信息的真实性变得无法判断,导致Wiki Education投入了大量人力来清理这些内容,其工作量可能超过了原始编辑者投入的时间。作为应对,该组织已将部分存在严重缺陷的文章移至沙盒或申请快速删除(PROD)。
为主动管理这一趋势,Wiki Education开始在项目参与者的编辑(包括沙盒内容)中近乎实时地运行Pangram检测。他们还发布了关于“将生成式AI工具与维基百科结合使用”的新培训模块,明确禁止直接复制粘贴。
在2025年下半年,系统共记录了1406次AI编辑警报,但只有314次(22%)发生在实际条目命名空间中,多数检测发生在早期练习阶段,例如创建书目或大纲。
研究还指出,Pangram在处理书目和高度依赖非散文内容(如列表和标题)的大纲时,偶尔会出现误报情况。Wiki Education未来将持续跟进这些发现,以平衡AI工具的潜在辅助作用与维护内容准确性的核心要求。