xiand.ai
人工智能

Vercel评估显示:AGENTS.md静态文档优于主动调用的Skills机制

Vercel在针对Next.js 16 API的代理评估中发现,一个8KB压缩的AGENTS.md文档索引实现了百分之百的通过率,而主动调用的Skills机制最高仅达百分之七十九。研究表明,对于框架特定知识的注入,静态、持久的上下文比模型自主决定的工具调用更为可靠和稳定。

La Era

Vercel Finds Static Docs Outperform Agent Skills in Next.js Code Generation Evals
Vercel Finds Static Docs Outperform Agent Skills in Next.js Code Generation Evals

Vercel近日公布了其对AI编程代理处理最新Next.js 16 API的评估结果,显示将文档索引直接嵌入项目根目录的AGENTS.md文件(静态上下文)的性能,显著优于依赖模型主动调用的Skills(工具调用)机制。这一发现挑战了业界认为工具调用是注入实时框架知识的理想范式的预期。

测试聚焦于Next.js 16中模型训练数据尚未包含的新API,如'use cache'和'forbidden()',以检验代理获取版本匹配文档的能力。在不施加明确指令的情况下,Skills机制的通过率与基线无异,表明当前模型在必要时未能可靠地触发工具使用。

研究人员发现,即使通过在AGENTS.md中添加指令强制代理调用Skills,其性能提升至百分之七十九,但结果的稳定性令人担忧,因为细微的指令措辞变化导致了代理行为的剧烈波动。这种对提示词的脆弱性使其不适合生产环境的可靠性要求。

随后,Vercel转向测试将压缩的Next.js文档索引直接注入AGENTS.md,并加入“咨询文档而非依赖训练数据”的指令。在这个硬化的评估套件下,这种“被动”的上下文注入方案实现了百分之百的通过率,全面超越了经过优化的Skills机制。

分析认为,AGENTS.md的成功归因于消除了决策点、提供了持续一致的可用性以及避免了Skills带来的执行顺序问题。尽管这可能导致上下文窗口膨胀,但通过管道分隔结构将40KB的索引压缩至8KB,有效解决了这一顾虑,同时保持了信息可检索性。

Vercel指出,Skills并非过时,它们更适用于用户明确触发的垂直、特定动作的工作流,例如版本升级或App Router迁移。然而,对于通用的框架知识传递,当前被动上下文的可靠性明显更高。

Vercel建议框架维护者应立即考虑为项目提供可供用户添加到AGENTS.md的文档片段,而非等待模型工具使用能力的提升。核心结论是,对于提升框架知识的准确性,激进的压缩和静态注入是当前更优的实践路径。

标签

评论

评论存储在您的浏览器本地。