AI 医疗建议的可靠性堪忧
根据《英国医学杂志开放版》(BMJ Open)近日发表的一项评估报告,人工智能聊天机器人在提供可靠医疗信息方面表现不及格。研究人员针对癌症、疫苗、干细胞、营养学和运动表现这五个领域,向这些大语言模型提出了 10 个具体问题,以此评估其性能。
研究结果显示,49.6% 的回答被归类为“有问题”。其中,30% 的回答被判定为“存在一定问题”,而 19.6% 则被归为“严重问题”,这些回答不仅包含重大的事实错误,甚至还存在凭空捏造的数据。
据 PsyPost 报道,AI 在医疗领域的快速普及,目前已远远超出了该技术保持事实准确性的能力。尽管这些模型正越来越多地被用于辅助临床医生进行文档处理、决策支持和患者教育,但该研究强调了其架构中存在一个顽固且根本性的缺陷。
大语言模型容易出现“幻觉”现象,即系统会言之凿凿地生成完全错误的信息。由于这些模型被设计为以自然、拟人的语言进行交流,用户往往难以分辨哪些是专业的医疗指导,哪些是 AI 生成的虚假信息。
此前有研究表明,AI 在预测某些特定实验结果时有时能超越人类专家,但此次评估证明,这种能力并不等同于其在医疗领域的通用可靠性。在常见健康议题上居高不下的错误率,对公共卫生构成了严峻挑战,尤其是当越来越多的人开始转向聊天机器人寻求针对严重健康问题的即时解答时,风险尤为突出。
研究人员强调,尽管这些工具在医疗领域潜力巨大,但当前一代模型频繁传播错误信息。研究结果凸显了一个日益扩大的矛盾:AI 技术正被迅速采纳,但旨在保护用户免受危险或不准确健康建议侵害的必要安全协议却尚未落实到位。