Anthropic本周发布了一份研究报告,旨在量化其Claude人工智能模型在实际使用中引发用户“赋能剥夺模式”的可能性,该研究基于150万次匿名真实世界对话数据。
这份名为《谁说了算?真实世界大语言模型使用中的赋能剥夺模式》的报告,由Anthropic与多伦多大学的研究人员共同撰写,试图客观衡量AI可能对用户思想或行动产生的负面影响。
研究人员定义了三种主要的“用户赋能剥夺”方式,用以识别聊天机器人何时可能引导用户走向有害的认知路径或错误行为。
为实现量化分析,Anthropic动用了名为Clio的自动化分析工具对全部150万次Claude对话进行了分类处理,该工具的准确性已通过小规模人工分类样本进行了验证。
分析结果显示,最严重的“现实扭曲”风险大约出现在每1300次对话中,而“行动扭曲”的风险频率约为每6000次对话。
尽管从百分比来看,这些操纵性模式的发生率相对较低,但研究人员指出,鉴于大语言模型(LLM)的庞大使用基数,其绝对规模可能构成一个值得关注的问题。
该研究的结论表明,虽然AI有害交互并非主流现象,但对于模型安全性和用户保护而言,精确量化此类低频高风险事件至关重要。