Token消耗量不等于AI战略成功的衡量标准
美国2025年AI私人投资达2859亿美元,但成本问题远比token价格复杂。token基础推理成本约为每百万0.0038美元,但实际价格受利用率、硬件、模型等多重因素影响。专家指出,企业不应将token使用量作为生产力指标,而应聚焦业务成果。当前AI项目面临内存短缺、成本飙升等挑战,咨询公司建议企业明确目标后再部署AI,经指导的项目成功率可从15%提升至50%。
AI到底要花多少钱?这是一个简单却至关重要的问题——答案将决定企业的命运,并影响整个社会的走向。但脱离具体背景,这个问题也很难给出有意义的回答。
一种可能的回答是"太贵了"。根据斯坦福大学人工智能研究所发布的《2026年人工智能指数报告》,2025年美国私人AI投资总额已达2859亿美元。这笔资金带来了经济效益,但也给环境资源、电力供应和社区生活带来了巨大压力。
报告指出:"AI数据中心的电力装机容量已上升至29.6吉瓦,相当于纽约州的峰值用电需求;仅GPT-4o推理过程一年消耗的水量,就可能超过1200万人的饮用水需求。"
此外,过度依赖AI工具还会带来人类能力退化的代价——当人们把AI当成随机应答机反复使用时,相关技能要么逐渐退化,要么根本无从培养。
当然,这种影响在短期内难以量化。考虑到当前美国政府对监管约束和公众诉求缺乏兴趣,在政府和行业层面正式回应社会关切之前,聚焦具体的财务细节或许是更务实的做法。
从Token说起
Token是目前AI模型输入与输出定价的基本单位。由于Anthropic、GitHub等订阅平台正逐步将用户从Token补贴订阅模式推向按需付费模式,Token价格已成为开发者们高度关注的话题。
机器学习研究员Devansh身兼多职——他同时担任法律初创公司Iqidis的AI负责人,以及名为"巧克力牛奶教"的AI社区创始人。他在今年早些时候发表的一篇文章中对此做了详细测算,得出的结论是:在非常具体的条件下,每百万Token的成本约为0.0038美元。
这一基准成本对应的是:在Nvidia H100 GPU上以2.50美元/小时的租用价格进行推理,每秒生成185个Token,且GPU利用率达到100%。
但正如Devansh所指出的,实际上没有人能跑满100%的利用率。在30%利用率下,每百万Token成本约为0.013美元;在10%利用率下,则约为0.038美元。
目前,Anthropic最新模型Opus 4.7的定价为输入5美元/百万Token、输出25美元/百万Token。而谷歌Gemma 4 26B A4B模型在OpenRouter平台上的加权平均输入价格约为0.096美元/百万Token。
成本变量远不止推理本身
Devansh在接受《The Register》电话采访时表示:"如果只看各大实验室提供的API价格,对于西方实验室来说,这确实是了解Token成本的一个很好的参考信号。有人说Anthropic的目标是维持约50%的毛利率。但实际上,Token的成本是多个变量的综合体——包括模型本身、背后的研究投入,以及用户看不到的持续模型迭代更新。所以必须把这些因素都纳入考量,而不能只看单次推理的成本,那样的视角是片面的。"
他还指出,大多数企业之所以不太纠结于Token的精确成本,是因为它们关注的是如何向客户交付有价值的服务。
"在很多法律工作中,成本实际上是可以转嫁给客户的,而客户也不会抱怨,因为他们希望了解工作的具体内容和执行过程。从这个角度来看,只要能够合理说明成本来源,费用多少就不是太大的问题。只要能持续交付价值,成本预测就没那么令人担忧。"
Token消耗量不是生产力指标
Meta和Shopify等公司曾将Token使用量作为关键绩效指标大加推广,员工们也纷纷响应,试图通过大量使用AI工具来彰显自身价值。然而,这种做法成本高昂,对真正有意义的业务指标却未必有多大帮助。
"Token消耗量和生产力直接相关吗?绝对不是。我对此做过大量研究……以前有代码行数、打字量之类愚蠢的生产力指标,现在Token消耗量不过是这一系列愚蠢指标的最新版本。中层管理者总会想方设法为自己的存在找到合理性,找到一种不需要动脑就能给人排名的方式。"
Devansh同时也承认,大语言模型的一个问题在于我们尚不清楚如何最好地使用它们。因此,鼓励员工多用Token,或许也有其潜在价值——他们可能因此探索出新的工作流程,为发现什么有效、什么无效提供有价值的信号。
企业AI项目的现实困境
IT咨询公司Future Tech Enterprise首席执行官鲍勃·维内罗(Bob Venero)在接受《The Register》采访时表示,他的公司主要服务于《财富》100强客户,其中许多企业在推进AI项目时大量烧钱,却没有想清楚真正想要实现什么目标。
他说,Future Tech在与客户合作时,首要任务是弄清楚期望的业务成果——而这个成果未必一定要用AI来实现。
当然,也有确实需要AI的案例。例如,Future Tech近期与诺斯洛普·格鲁曼公司合作,帮助这家国防企业部署了Nvidia企业级AI工厂,以支撑其AI工作负载的运行。
维内罗表示,许多企业在评估AI投入产出比、衡量AI效果、以及探索技术应用场景等方面仍面临很大挑战。
"在明确投入方向和预期成果之前,有大量前期工作需要完成——尤其是在成本已是六个月前三倍的当下。"他提到了"内存末日"(Ramageddon)现象——即AI算力热潮引发的内存严重短缺问题。
维内罗将此归因于OpenAI承诺从三星和SK海力士大量采购存储芯片,以及美光等原始设备制造商向高带宽内存转型的趋势。他表示,这些变化使AI部署的投入产出比计算更加复杂,因为一切都变得更贵了。
他认为,云服务商通过按量付费定价可以在一定程度上缓解这一问题,但他对此也有所保留。
"我不太支持把AI放到本地以外的环境中,从我们的角度来看,这有点令人担忧。"
抛开安全顾虑不谈,维内罗认为对于大型企业而言,云依赖带来的生产力风险同样不容忽视。他以微软Office 365为例:"Office 365宕机过吗?当然有,而且不止一次,类似的中断已经发生过很多次。"
他说,如果云服务中断每分钟损失一千美元,那或许还能接受。"但如果每分钟损失一百万美元,你就得认真考虑需要什么样的管控机制了,而那可能意味着要走本地部署路线。"
更大的生态风险
AI的快速普及或许正在加剧云服务的不稳定性——无论是因为AI生成代码审查不足被直接推入生产环境,还是AI高强度使用带来的基础设施压力。维内罗表示,客户"完全感受到了这一点。而那些还没感受到的,我们正在帮助他们认识到这个问题。"
谈及近期大模型的火爆带来的容量挑战,维内罗说:"人们把这些东西放进自己的环境里,结果出现了各种意外情况。所以整个生态系统必须认真讨论风险问题,以及与之相关的三大风险支柱。"
他还批评各大超大规模云服务商一味追求速度、忽视质量:"现在是一场竞赛——谁能赢?谁能抢到最多?大家都在全力押注,结果造成了令人难以置信的混乱。"
先想清楚"为什么",再谈AI
"我们希望客户做到的是先退一步,想清楚自己想做什么、为什么要做,考量相关投入和合理的时间节点,然后衡量结果。"
有意识、有针对性地推进AI项目,成功落地的概率会大幅提升。维内罗表示,在他接触的企业中,在接受系统性指导之前,真正能够完成部署的AI原型项目比例大约只有15%;而经过专业指导后,这一比例能提升到45%至50%。
"这非常依赖具体的应用场景。当你明确了想要实现的目标并持续衡量成果,就会取得成功。如果你只是为了用AI而用AI,成功率可能只有5%。"
也许问"AI要花多少钱"并不应该是第一个问题。鉴于部分员工承受着通过消耗Token来证明自身价值的压力,维内罗认为,真正应该先问的是:"为什么要用?用来做什么?"
Q&A
Q1:Token的实际成本如何计算,影响因素有哪些?
A:Token成本受多种变量影响,并非一个固定数字。在Nvidia H100 GPU上100%利用率下,基准成本约为每百万Token 0.0038美元;但实际利用率通常远低于此,30%利用率时成本约为0.013美元,10%利用率时约为0.038美元。此外,还需考虑模型研发投入、持续更新维护等隐性成本。Anthropic等商业平台的定价也远高于纯推理成本,反映了更完整的服务价值链。
Q2:用Token消耗量来衡量员工AI使用效率,这种方式靠谱吗?
A:并不靠谱。研究显示,Token消耗量与实际生产力之间并没有直接的正相关关系。Meta、Shopify等公司虽曾将其作为关键绩效指标,但这种做法本质上只是代码行数、打字量等传统低效指标的翻版。过度追求Token消耗不仅成本高昂,也未必能带动真正有意义的业务产出。真正有价值的衡量方式应聚焦于具体业务成果,而非消耗了多少Token。
Q3:企业AI项目成功率低的主要原因是什么?如何提高?
A:许多企业在推进AI项目时缺乏清晰的目标和系统性规划,导致大量资金投入却收效甚微。未经专业指导时,AI原型项目的实际部署率仅约15%。提高成功率的关键在于:明确期望的业务成果,评估是否真的需要AI来实现,制定合理的投入计划和时间节点,并持续衡量实际效果。经过专业指导后,部署成功率可提升至45%至50%。盲目跟风"为了AI而AI",成功率可能只有5%。




