谷歌Project Genie发布：通过图像或文本提示生成可交互式AI世界

谷歌近日宣布向付费用户更广泛地推出Project Genie，这是一项基于其世界模型（World Model）技术的创新应用，允许用户通过文本提示或参考图像生成可交互的虚拟环境。此举将此前仅对少数受信任测试人员开放的Genie 3技术带入商业化阶段，但访问权限目前绑定在谷歌最昂贵的AI订阅服务上。

世界模型本质上是一种生成式AI，它能够即时构建一个动态响应用户输入的模拟环境，而非传统的静态3D模型。Ars Technica此前报道，Genie 3的突破在于其显著增强了对已生成世界细节的长期记忆能力，尽管“长期”在此语境下仍仅指数分钟。

Project Genie是Genie 3的优化迭代版本，它集成了Nano Banana Pro和Gemini 3等最新的AI模型以提升性能。用户可以通过提供一张参考图像或直接输入描述，启动“世界素描”（World Sketching）过程，系统首先生成一个初始静态图像作为基础。

如果用户对AI生成的参考图像不满意，可以在将其交给Genie进行动态化渲染之前进行修改，这提供了关键的初步控制权。一旦确认基础图像，Genie便开始生成可探索的虚拟世界，结果输出为720p分辨率的视频，渲染帧率约为每秒24帧。

当用户使用WASD键控制角色移动时，Genie能够以接近实时的速度渲染角色前方的路径和环境变化，模拟出沉浸式的探索体验。虽然系统的记忆保持时间有限，但这种即时反馈的交互性是其区别于传统视频生成AI的关键特征。

谷歌此举表明其正积极探索生成式AI在实时模拟和虚拟环境构建领域的应用潜力。通过将尖端模型商业化并集成到订阅服务中，谷歌正在测试高端生成式AI功能在主流消费市场中的接受度和价值定位。

观察未来发展，随着底层模型（如Nano Banana Pro）的持续迭代，Project Genie有望在分辨率、实时性和环境持久性上实现进一步飞跃。这预示着AI驱动的虚拟内容创作和轻量级模拟体验正加速走向主流。

评论