微软于本周一正式宣布两项新功能,旨在显著提升 Copilot 研究工具的回答质量。这两款功能将 OpenAI 的 GPT 与 Anthropic 的 Claude 结合,用于处理同一项研究任务。根据微软内部测试数据,该组合在行业基准测试中的得分高于现有所有系统。
双模式协作机制
新功能名为 Critique 和 Council,分别采用不同的协作逻辑来解决单一模型的局限。Critique 模式让模型顺序工作,一个模型生成草稿,另一个模型负责审查内容。Council 模式则让模型并行工作,由第三个模型进行对比总结并解释差异。
微软详细解释了 Critique 模式的具体工作流程。一个模型负责规划任务并检索信息,另一个模型则充当专家审核员。这种分工旨在解决单一模型常出现的幻觉和引用错误问题,确保最终报告更准确。
“Critique 是一个新的多模型深度研究系统,专为复杂研究任务设计,”微软在声明中表示。他们强调该系统将生成阶段与评估阶段分离,利用来自前沿实验室的组合模型。
在 DRACO 基准测试中,Copilot 配合 Critique 模式获得了 57.4 分。相比之下,单独使用 Anthropic 的 Claude Opus 4.6 仅得 42.7 分。微软表示其联合系统比次优结果高出近 14%。
行业竞争新动态
这种多模型策略不同于目前市场上大多数单一模型的研究代理。谷歌、OpenAI 和 xAI 此前均发布了各自的独立研究工具。微软此举意在证明无需在单一模型中做出选择,直接整合现有能力。
Satya Nadella 在社交媒体上展示了这一功能,强调了多模型系统在复杂任务中的优势。微软声称该模式能显著提高分析广度和呈现质量,同时修正事实性错误。测试结果显示,最大的收益出现在分析广度和呈现质量方面。
目前这些功能仅向加入 Frontier 计划的用户开放。用户需要订阅 Microsoft 365 Copilot 才能使用。该计划属于 Copilot 最新能力的早期访问渠道,目前尚未向所有用户开放。
随着人工智能研究工具的竞争加剧,多模型协作成为新趋势。微软希望证明组合不同模型的优势超过单一模型。未来可能需要关注此类协作模式的普及情况,以及是否会出现更多跨公司模型整合。