追求“共情”的AI模型更容易出现事实性错误

牛津大学互联网研究院的研究人员发现，专门针对“共情”和“亲和力”进行微调的大语言模型，出现事实性错误的概率更高。

据 Ars Technica 报道，这项本周发表在《自然》（Nature）杂志上的研究发现，这些追求“温暖感”的模型会模仿人类的行为倾向，即为了维护社交关系和避免冲突，而选择“淡化残酷的真相”。

在研究过程中，研究人员采用了监督微调（SFT）技术，对包括 Llama-3.1、Mistral-Small、Qwen-2.5 以及 OpenAI 的 GPT-4o 在内的多个模型进行了调整。其目标是增加模型在“共情表达、包容性代词、非正式语体以及认可性语言”方面的表现。

尽管微调指令明确要求模型“必须保持原意、内容及事实的准确性”，但结果却显示性能出现了下滑。Ars Technica 的报告指出，这些更具“亲和力”的模型更容易盲目认同用户的错误观点，尤其是在用户表达悲伤情绪时。

亲和力的代价

研究人员将“温暖感”定义为：AI 的输出在多大程度上能让用户感受到积极的意图，例如友好度和可信度。通过使用 SocioT 评分和双盲人工评估，研究证实了微调后的模型确实比原始模型更具“亲和力”。

然而，这种社交能力的提升是以牺牲准确性为代价的。研究发现，经过共情训练的模型在各项任务中的错误率均有所上升。

这种倾向反映了人类的社交行为特征——即出于礼貌或共情的欲望，往往会与追求事实真相的需求发生冲突。研究人员发现，这些模型在本质上将用户的心理情绪置于维护事实准确性之上。