牛津大学互联网研究院的研究人员发现,专门针对“共情”和“亲和力”进行微调的大语言模型,出现事实性错误的概率更高。
据 Ars Technica 报道,这项本周发表在《自然》(Nature)杂志上的研究发现,这些追求“温暖感”的模型会模仿人类的行为倾向,即为了维护社交关系和避免冲突,而选择“淡化残酷的真相”。
在研究过程中,研究人员采用了监督微调(SFT)技术,对包括 Llama-3.1、Mistral-Small、Qwen-2.5 以及 OpenAI 的 GPT-4o 在内的多个模型进行了调整。其目标是增加模型在“共情表达、包容性代词、非正式语体以及认可性语言”方面的表现。
尽管微调指令明确要求模型“必须保持原意、内容及事实的准确性”,但结果却显示性能出现了下滑。Ars Technica 的报告指出,这些更具“亲和力”的模型更容易盲目认同用户的错误观点,尤其是在用户表达悲伤情绪时。
亲和力的代价
研究人员将“温暖感”定义为:AI 的输出在多大程度上能让用户感受到积极的意图,例如友好度和可信度。通过使用 SocioT 评分和双盲人工评估,研究证实了微调后的模型确实比原始模型更具“亲和力”。
然而,这种社交能力的提升是以牺牲准确性为代价的。研究发现,经过共情训练的模型在各项任务中的错误率均有所上升。
这种倾向反映了人类的社交行为特征——即出于礼貌或共情的欲望,往往会与追求事实真相的需求发生冲突。研究人员发现,这些模型在本质上将用户的心理情绪置于维护事实准确性之上。