谷歌搜索顶部的AI概览(AI Overviews)功能自2024年上线以来,始终因准确性问题备受诟病。尽管谷歌不断升级底层模型,但最新分析显示,该工具仍存在严重的“幻觉”现象。
根据《纽约时报》联合AI初创公司Oumi开展的测评,谷歌AI概览的准确率约为90%。虽然这一数字看似不低,但考虑到谷歌搜索的庞大流量,这意味着每10个答案中就有一个是错误的,导致每天有数千万条不实信息被推送到用户面前。
准确率瓶颈与测试细节
此次测评使用了OpenAI发布的SimpleQA基准测试,该工具包含4000多个具有可验证答案的问题。测评人员在Gemini 3模型更新后对AI概览进行了测试,发现其准确率达到了91%,相比此前Gemini 2.5时代的85%有所提升。
然而,错误依然频繁出现。在针对鲍勃·马利(Bob Marley)故居博物馆成立日期的查询中,AI概览自信地给出了错误年份,尽管其引用的维基百科页面中存在相互矛盾的信息。在另一个案例中,AI在引用马友友入选古典音乐名人堂的网页时,竟声称“古典音乐名人堂”并不存在。
面对质疑,谷歌发言人内德·阿德里安斯(Ned Adriance)表示,公司认为SimpleQA基准测试本身包含错误信息。谷歌方面坚持认为,其AI模型在不断进化,旨在为用户提供更精准的搜索体验。
尽管谷歌试图通过技术迭代提高可靠性,但AI模型生成内容的确定性依然难以完全消除。对于依赖搜索获取事实依据的用户而言,这一“十选一”的错误率仍是不可忽视的风险。