微软推出双模型协同功能整合 GPT 与 Claude 提升研究准确率

微软于本周一正式宣布两项新功能，旨在显著提升 Copilot 研究工具的回答质量。这两款功能将 OpenAI 的 GPT 与 Anthropic 的 Claude 结合，用于处理同一项研究任务。根据微软内部测试数据，该组合在行业基准测试中的得分高于现有所有系统。

双模式协作机制

新功能名为 Critique 和 Council，分别采用不同的协作逻辑来解决单一模型的局限。Critique 模式让模型顺序工作，一个模型生成草稿，另一个模型负责审查内容。Council 模式则让模型并行工作，由第三个模型进行对比总结并解释差异。

微软详细解释了 Critique 模式的具体工作流程。一个模型负责规划任务并检索信息，另一个模型则充当专家审核员。这种分工旨在解决单一模型常出现的幻觉和引用错误问题，确保最终报告更准确。

“Critique 是一个新的多模型深度研究系统，专为复杂研究任务设计，”微软在声明中表示。他们强调该系统将生成阶段与评估阶段分离，利用来自前沿实验室的组合模型。

在 DRACO 基准测试中，Copilot 配合 Critique 模式获得了 57.4 分。相比之下，单独使用 Anthropic 的 Claude Opus 4.6 仅得 42.7 分。微软表示其联合系统比次优结果高出近 14%。

行业竞争新动态

这种多模型策略不同于目前市场上大多数单一模型的研究代理。谷歌、OpenAI 和 xAI 此前均发布了各自的独立研究工具。微软此举意在证明无需在单一模型中做出选择，直接整合现有能力。

Satya Nadella 在社交媒体上展示了这一功能，强调了多模型系统在复杂任务中的优势。微软声称该模式能显著提高分析广度和呈现质量，同时修正事实性错误。测试结果显示，最大的收益出现在分析广度和呈现质量方面。

目前这些功能仅向加入 Frontier 计划的用户开放。用户需要订阅 Microsoft 365 Copilot 才能使用。该计划属于 Copilot 最新能力的早期访问渠道，目前尚未向所有用户开放。

随着人工智能研究工具的竞争加剧，多模型协作成为新趋势。微软希望证明组合不同模型的优势超过单一模型。未来可能需要关注此类协作模式的普及情况，以及是否会出现更多跨公司模型整合。

评论