Claude AI 模拟飞行测试失败：在 X-Plane 12 模拟中遭遇两次坠毁

据 so.long.thanks.fish 的一份报告显示，一项利用 Anthropic 的 Claude AI 驾驶飞行模拟器的实验性尝试，在从海南飞往琼海博鳌的模拟航线上遭遇了两次坠毁。

该测试旨在通过指令让 AI 模型与 X-Plane 12 的 API 交互，从而操控一架塞斯纳 172 飞机。尽管该模型能够成功生成用于管理起飞和飞行控制的 Python 脚本，但在实时同步和延迟处理方面表现不佳。

第一次坠毁发生在起飞后不久。飞行日志记录显示，AI 飞行控制器在缺乏适当阻尼的情况下，施加了过大的升降舵增益，导致飞机出现剧烈的俯仰和侧滚，最终被迫重置回跑道。

在第二次尝试中，模型一度实现了稳定飞行，甚至成功完成了顺风航段的导航。然而，在最终进场阶段，由于 AI 处理循环中出现了一个间隙，导致飞机失去了主动控制，再次发生坠毁。

推理能力的基准测试

发布该实验结果的 so.long.thanks.fish 指出，主要的挑战在于 AI 获取的视觉截图与 API 数据之间存在延迟。这种延迟使得模型在执行关键机动动作时，难以进行足够及时的航向调整。

除了技术层面的失败，这项实验也成为了对模型规划能力的测试。研究人员观察到，该 AI 在甚至还没有制定转向或着陆指令之前，就已经决定编写起飞代码。

该消息来源写道：“我认为这可以作为一种 AGI（通用人工智能）基准测试，用来衡量模型在‘起飞前’预判并规划开发及使用何种工具的能力。”

此次测试最终以两次坠毁和一次稳定飞行结束，凸显了大型语言模型在管理高频、实时物理环境方面目前面临的巨大挑战。