Google DeepMind近日发布了其最新的技术进展概览,展示了其在多模态生成式AI、物理智能体以及迈向通用人工智能(AGI)方面的多项突破。这些成果巩固了DeepMind在推动AI前沿研究中的核心地位。
在生成式AI方面,DeepMind推出了基于Gemini模型的先进图像与编辑模型,以及最新的视频生成模型,旨在赋能内容创作者。此外,实时音频模型的进步也表明了其在音频处理领域的持续投入,这些均体现了对多模态能力的深度整合。
研究人员重点介绍了赋能物理智能体(Physical Agents)的进展,这些智能体能够更主动地理解和操作物理环境,预示着机器人技术将从感知迈向更复杂的规划与执行能力。这一方向对于自动化和机器人应用具有深远影响。
DeepMind的联合创始人Demis Hassabis阐述了他对AGI实现路径的愿景,提及了解决聚变能源和材料科学等“根节点”问题的潜力,并强调了世界模型(World Models)和高级模拟的重要性。
另一个关键的AGI框架讨论中,Shane向主持人Hannah Fry详细解析了其AGI分级体系,从最小化AGI到完全AGI的阶段划分及其时间预估。这为行业提供了一个关于AGI发展阶段的结构化视角。
DeepMind还展示了Genie 3,一个通用世界模型,该模型能够生成前所未有的多样化交互式环境。这与五年前AlphaFold 2解决蛋白质结构预测问题一样,是AI助力科学发现的又一有力证明。
这些技术的发布,尤其是在世界模型和物理交互方面的进展,标志着AI系统正在从纯粹的数据处理转向更深层次的因果理解和环境互动能力。
DeepMind的持续投入预示着AI研究正加速从特定任务的优化转向构建更具泛化能力的智能系统,这对计算科学乃至多个应用领域都将产生结构性影响。