模型价格战下,企业 AI 账单为何不降反升?——多 Provider 成本治理的工程化方案

举报
AiKey Labs 发表于 2026/06/08 11:44:07 2026/06/08
【摘要】 Token 单价创历史新低,但企业 AI 月支出持续攀升。本文从用量弹性、词元通胀和多 Provider 账本分散三个维度剖析成本失控根因,提出统一计费、会话归因与异常检测的工程化治理思路。

2026 年 5 月,DeepSeek 宣布 V4-Pro 永久降价 75%,五天后小米 MiMo-V2.5 降幅达 99%。Token 单价降到历史最低,全国日均词元调用量冲到 140 万亿次。

但价格战并未带来账单的同步缩水。相反,多家企业反馈 AI 月支出在降价后不降反升。

用量爆发的弹性远超预期

一个典型案例来自 Uber。据 Bloomberg 报道,这家公司在前四个月就用完了 2026 全年的 AI 预算。公司五千多名工程师中 95% 每月使用 AI 编码工具,人均月 Token 支出 500~2000 美元。公司最终被迫设置每人每月 1500 美元的硬上限。

贝恩对全球 951 家年收入超 1 亿美元企业的调查显示,AI 支出超 1 万亿美元后,实际成本节约普遍远低于预期。44% 的大型企业正在用尚未实现的节省来为下一轮投资背书。

价格下降刺激了需求,但需求的增长远远超过了价格下降的幅度——这就是为什么账单不降反升的第一层原因。

Agent 时代的词元通胀

更隐蔽的问题在于消费模式的变化。Agent 执行任务时在后台拆解、验证、重试,单次任务的 Token 消耗是同等长度人工对话的 10 到 100 倍(深圳特区报数据)。高盛的测算显示,即使推理成本每年下降 60% 到 70%,到 2030 年 Agent 式 AI 的月 Token 消耗仍将增长 24 倍。

成本下降的速度远远赶不上消费增长的速度。这一结构性矛盾意味着只关注 Token 单价做预算,会严重低估实际支出。

多 Provider 账本分散:缺乏统一的治理视图

企业通常同时使用多个模型供应商——研发用 Claude 和 GPT,算法组用 DeepSeek 和通义千问,产品组用 Kimi。每个供应商有独立的计费系统和账单格式,缺少统一的成本视图。

由此产生的典型问题包括:已离职员工的 Key 持续扣费、测试环境的 Key 被遗忘但仍在消耗、某个模型调用量异常飙升却无预警机制。月底只能对着各平台账单总数,无法追溯到具体的使用者、项目和场景。

4 月份的 LiteLLM 供应链投毒事件和 Braintrust 的 API Key 泄露事件进一步暴露了密钥分散管理的安全隐患——Key 散落在项目配置、环境变量和 CI/CD Secret 中,缺乏统一的轮换和审计机制。

工程化治理的三个方向

1. 统一计费代理层

在多 Provider 之前增设代理层,所有模型请求经统一出口。代理层负责记录每次调用的模型、Token 量、成本和调用方信息,输出统一的消费数据模型。这类似于企业 IT 架构中 API 网关统一管理南北向流量的思路。

2. 会话级消费归因

当前账单粒度是 Key 级别——只知道某把 Key 本月花了多少钱。需要将会话标识注入调用链路,将消费数据按项目、人员、环境维度聚合,实现从"Key 花了多少"到"谁在什么时候因为什么花了多少"的归因能力。

3. 实时异常检测

对消费速率、调用模式、失败率建立基线,当某个会话 Token 消耗突然飙升、某把 Key 在非工作时间被高频调用时,实时触发告警。这比"月底查账单"的被动模式更能有效控制风险。


Token 降价推动了 AI 的规模化采用,但也将多 Provider 成本治理的复杂度推到了前台。企业需要的不只是更便宜的 Token,而是能看清每一笔消费的能力——看清,才是管好的第一步。

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。