Netflix 高级工程师 Tejas Chopra 近日发布了一款开源工具,旨在通过在提示词发送至大语言模型(LLM)前剔除冗余数据,从而显著降低 AI 使用成本。该项目名为“Headroom”,旨在解决近期困扰 Uber 和微软等企业的 Token 计费成本激增问题。
据《The Register》报道,Chopra 开发该工具的初衷源于他个人项目在使用 Claude Sonnet 时收到的一张 287 美元的账单。经排查,他发现绝大部分 Token 消耗并非来自实际的创意输入,而是由机器生成的元数据、嵌套的 JSON 架构以及重复的数据库列所导致。据 Chopra 估算,发送给大模型的 Token 中,冗余部分占比高达 90%。
优化上下文窗口
Headroom 作为开发者本地机器上的代理运行,在对话历史、日志和工具输出发送至大模型前对其进行压缩。尽管模型供应商提供了各自的 Token 缓存设置,但 Chopra 指出,这些设置往往对终端用户来说操作复杂,且成本高昂。在上周的开源峰会上,Chopra 对与会者表示:“你得支付两倍的写入成本,才能在读取时节省 90% 的费用。”
虽然该项目并非 Netflix 的官方项目,但目前已被公司内部多个团队采用,并在更广泛的开发者社区中获得了关注。自今年 1 月发布以来,该项目在 GitHub 上已获得 2000 个星标,并拥有超过 120 次分支(fork)。Chopra 强调,开发该工具的核心动力是减轻个人开发者的经济负担。
Chopra 在演讲中提到:“我们的许多用户都是被 Token 成本深深困扰的人,这比其他任何问题都更让他们头疼。”据《The Register》统计,该工具的用户群体已累计节省了约 2000 亿个 Token,这些资源现在可以被重新分配用于其他任务。