Netflix 工程师发布开源工具，旨在大幅削减 AI Token 使用成本

Netflix 高级工程师 Tejas Chopra 近日发布了一款开源工具，旨在通过在提示词发送至大语言模型（LLM）前剔除冗余数据，从而显著降低 AI 使用成本。该项目名为“Headroom”，旨在解决近期困扰 Uber 和微软等企业的 Token 计费成本激增问题。

据《The Register》报道，Chopra 开发该工具的初衷源于他个人项目在使用 Claude Sonnet 时收到的一张 287 美元的账单。经排查，他发现绝大部分 Token 消耗并非来自实际的创意输入，而是由机器生成的元数据、嵌套的 JSON 架构以及重复的数据库列所导致。据 Chopra 估算，发送给大模型的 Token 中，冗余部分占比高达 90%。

优化上下文窗口

Headroom 作为开发者本地机器上的代理运行，在对话历史、日志和工具输出发送至大模型前对其进行压缩。尽管模型供应商提供了各自的 Token 缓存设置，但 Chopra 指出，这些设置往往对终端用户来说操作复杂，且成本高昂。在上周的开源峰会上，Chopra 对与会者表示：“你得支付两倍的写入成本，才能在读取时节省 90% 的费用。”

虽然该项目并非 Netflix 的官方项目，但目前已被公司内部多个团队采用，并在更广泛的开发者社区中获得了关注。自今年 1 月发布以来，该项目在 GitHub 上已获得 2000 个星标，并拥有超过 120 次分支（fork）。Chopra 强调，开发该工具的核心动力是减轻个人开发者的经济负担。

Chopra 在演讲中提到：“我们的许多用户都是被 Token 成本深深困扰的人，这比其他任何问题都更让他们头疼。”据《The Register》统计，该工具的用户群体已累计节省了约 2000 亿个 Token，这些资源现在可以被重新分配用于其他任务。

Netflix 工程师发布开源工具，旨在大幅削减 AI Token 使用成本

优化上下文窗口

评论

继续阅读

更多人工智能

最新消息

Netflix 工程师发布开源工具，旨在大幅削减 AI Token 使用成本

优化上下文窗口

继续阅读

更多人工智能

谷歌搜索更新后，DuckDuckGo“去AI化”页面流量激增

谷歌推出基于云端的 Gemini Spark 智能体

AI 生成的网红正在 TikTok 上进行代发货诈骗

最新消息

研究发现：游戏玩家比普通大众更具包容性

暴雪娱乐庆祝《守望先锋》开发十周年

加州众议院通过《保护我们的游戏法案》，游戏保存运动取得重大胜利