据 so.long.thanks.fish 的一份报告显示,一项利用 Anthropic 的 Claude AI 驾驶飞行模拟器的实验性尝试,在从海南飞往琼海博鳌的模拟航线上遭遇了两次坠毁。
该测试旨在通过指令让 AI 模型与 X-Plane 12 的 API 交互,从而操控一架塞斯纳 172 飞机。尽管该模型能够成功生成用于管理起飞和飞行控制的 Python 脚本,但在实时同步和延迟处理方面表现不佳。
第一次坠毁发生在起飞后不久。飞行日志记录显示,AI 飞行控制器在缺乏适当阻尼的情况下,施加了过大的升降舵增益,导致飞机出现剧烈的俯仰和侧滚,最终被迫重置回跑道。
在第二次尝试中,模型一度实现了稳定飞行,甚至成功完成了顺风航段的导航。然而,在最终进场阶段,由于 AI 处理循环中出现了一个间隙,导致飞机失去了主动控制,再次发生坠毁。
推理能力的基准测试
发布该实验结果的 so.long.thanks.fish 指出,主要的挑战在于 AI 获取的视觉截图与 API 数据之间存在延迟。这种延迟使得模型在执行关键机动动作时,难以进行足够及时的航向调整。
除了技术层面的失败,这项实验也成为了对模型规划能力的测试。研究人员观察到,该 AI 在甚至还没有制定转向或着陆指令之前,就已经决定编写起飞代码。
该消息来源写道:“我认为这可以作为一种 AGI(通用人工智能)基准测试,用来衡量模型在‘起飞前’预判并规划开发及使用何种工具的能力。”
此次测试最终以两次坠毁和一次稳定飞行结束,凸显了大型语言模型在管理高频、实时物理环境方面目前面临的巨大挑战。