谷歌近日宣布向付费用户更广泛地推出Project Genie,这是一项基于其世界模型(World Model)技术的创新应用,允许用户通过文本提示或参考图像生成可交互的虚拟环境。此举将此前仅对少数受信任测试人员开放的Genie 3技术带入商业化阶段,但访问权限目前绑定在谷歌最昂贵的AI订阅服务上。
世界模型本质上是一种生成式AI,它能够即时构建一个动态响应用户输入的模拟环境,而非传统的静态3D模型。Ars Technica此前报道,Genie 3的突破在于其显著增强了对已生成世界细节的长期记忆能力,尽管“长期”在此语境下仍仅指数分钟。
Project Genie是Genie 3的优化迭代版本,它集成了Nano Banana Pro和Gemini 3等最新的AI模型以提升性能。用户可以通过提供一张参考图像或直接输入描述,启动“世界素描”(World Sketching)过程,系统首先生成一个初始静态图像作为基础。
如果用户对AI生成的参考图像不满意,可以在将其交给Genie进行动态化渲染之前进行修改,这提供了关键的初步控制权。一旦确认基础图像,Genie便开始生成可探索的虚拟世界,结果输出为720p分辨率的视频,渲染帧率约为每秒24帧。
当用户使用WASD键控制角色移动时,Genie能够以接近实时的速度渲染角色前方的路径和环境变化,模拟出沉浸式的探索体验。虽然系统的记忆保持时间有限,但这种即时反馈的交互性是其区别于传统视频生成AI的关键特征。
谷歌此举表明其正积极探索生成式AI在实时模拟和虚拟环境构建领域的应用潜力。通过将尖端模型商业化并集成到订阅服务中,谷歌正在测试高端生成式AI功能在主流消费市场中的接受度和价值定位。
观察未来发展,随着底层模型(如Nano Banana Pro)的持续迭代,Project Genie有望在分辨率、实时性和环境持久性上实现进一步飞跃。这预示着AI驱动的虚拟内容创作和轻量级模拟体验正加速走向主流。