Token不平等是复利的
tokenizer 对非英语语言的系统性偏差,在 agentic 时代被放大成结构性不平等——一份把 Token 不平等放到真实 API 环境里量化的研究。
LLM 对不同语言的 tokenizer 系统性偏差在 NLP 领域已经是共识,有研究者称之为Token Tax(Ahia et al., 2023; Lundin et al., 2026)。但技术事实之外,这件事在实际使用中的影响,几乎没有人认真聊过。
Token 是一种基础设施。从社会学的角度看,基础设施有一个特性:
对局内人透明无缝,对局外人则呈现为障碍与额外成本。(Star,1999)
上世纪纽约公园的桥洞高度很低,公交车无法进入,公园于是自然地成为了有私家车的人——也就是富人的聚居地。这就是基础设施的政治性(Winner,1980)。Token 也在做同样的事,把非英语使用者挡在AI公园外。
现有的测量会把问答、翻译等类型任务也算作场景。但问题是这些场景哪怕存在 token 差异,影响也相当有限。因为用户一般直接用网页端,根本不接触 API 计费。Token 不平等真正影响的场景是Agent,尤其是Coding Agent。
随着 Claude Code、Cursor 等 agentic 工具的普及,单次任务的 token 消耗已从问答的数百扩展到数万乃至数百万量级。在这个规模下,哪怕语言之间只有 5% 的 token 差异也会被放大成不可忽视的成本鸿沟。
于是我做了一个简单的Research,将Token不排队放到真实的 API 使用环境下量化。
任务
数据集用的是 mHumanEval-Expert(Raihan et al., NAACL 2025)——在 OpenAI 经典代码评测集 HumanEval(164 道 Python 编程题)基础上,由专业译员将题目翻译成 15 种语言,覆盖高资源(英语、西班牙语、法语、日语、阿拉伯语、汉语)、中资源(葡萄牙语、意大利语、韩语、印地语、马来语)和低资源(斯瓦希里语、祖鲁语、泰卢固语、僧伽罗语)三组。
模型选的是 2026 年 3 月 OpenRouter 调用量最高的六个:三个中国来源(MiMo-V2-Pro、MiniMax M2.5、DeepSeek V3.2)和三个美国来源(Claude Sonnet 4.6、Gemini 3 Flash、Grok 4.1 Fast)。
核心测量了五个指标:
- token 溢价(各语言输入 token 数相对英语的倍率差)
- 单题成本(完成一道题的输入加输出 token 费用之和)
- 任务单次成功率(模型的Pass@1)
- PPP指数(一个经济学指标,可以理解为同样一笔钱在不同国家的实际购买力) 以及综合以上三者的 Token 鸿沟指数(TBI):
分子是"完成一道题实际要花多少钱",分母是"这笔钱对当地用户有多重"。TBI 越高,代表该语言用户相对英语用户承受的综合成本越重。
结论如下:
首先,token 溢价是真实的,而且根源不在文本长度。
低资源语言平均输入 token 溢价约 43%,高资源语言仅 -1.1%。极端值是泰卢固语(+73.6%)和僧伽罗语(+71.8%)。有意思的是,泰卢固语的输入字符数实际上比英语少 9.5%,但 token 数多出 72%——因为其每字符消耗约 0.73 个 token,英语只需 0.38 个。差距在压缩效率,不在内容量。性能上,英语任务单次完成率 84.9%,最低的祖鲁语只有 73.0%,14 种非英语语言里有 12 种与英语的差距达到统计显著水平。
其次,鸿沟有两种形态,需要不同的干预。
一种是技术主导型,以泰卢固语为代表:token 溢价 +74%,技术成本惩罚本身已经很重,叠加 PPP 放大效应后综合倍数达 10.5——根本问题是 tokenizer,降价只能部分缓解。另一种是经济主导型,以斯瓦希里语为代表:token 溢价仅 +10%,性能差距只有 14 个百分点,技术层面温和;但坦桑尼亚 PPP 指数只有 0.048(人均收入不到美国的 5%),把这个温和的技术成本放大为 26.1 倍的综合负担。改再好的 tokenizer 也解决不了收入差距。两种形态不能用一个方案通吃。
第三,中国模型更便宜,但不是因为技术更好。
中国来源模型在全部 15 种语言上的 TBI 均显著低于美国模型(p<.001),平均降幅约 19%。但拆开看:美国模型的Pass@1总体更高(78.6% vs. 77.5%),token 溢价均值反而更低(19.2% vs. 65.3%)。中国模型的 tokenizer 对非英语语言的处理效率实际上更差,TBI 更低来自定价策略和开源路线带来的价格稳定性,开源拯救世界......
思想实验:两个初始条件相同的学生
在微观层面来说,Token Tax的影响也很大。
设定有一个美国学生和一个印度学生,他们对AI的初始熟练度一致,使用AI编程的意愿完全相同。区别只在于他们的所在地不同,并且随之而来的经济和语言差异。
美国学生用英语,月收入 1% 用于 API,折合约 2.40。同时印地语属于中资源语言,token 溢价约 +15%,模型单次成功率约 80%,略低于英语的 84.9%。
这个差异会进入一个动态反馈过程:学生每月能完成多少 AI 辅助编程任务,取决于他的预算和单题有效成本;而完成的任务越多,他越熟悉 prompt 编写、错误定位、上下文组织和模型协作方式;熟练度提高后,单题成本又会进一步下降,因为同样的问题需要更少的轮次、更少的重试、更少的无效上下文。
做一个简单的仿真,假设基础单次任务 API 成本为 0.30 美元,美国学生第一个月可以完成约 56.6 个有效任务,印度学生只能完成约 5.6 个。6 个月后,美国学生因熟练度提高,每月可完成任务数上升到约 173.5 个;印度学生也会进步,但只能上升到约 10.9 个。
因此,Token Tax 是一种动态不平等。它既影响当下的一次 API 调用,也影响未来几个月甚至几年内用户能否积累足够的 AI 使用经验。几个月后,美国学生会发现,自己可以用和过去相同的预算完成更多工作;印度学生则会发现,即使保持同样的努力意愿,也很难进入同样的成本下降曲线。
但这篇研究本身有一个没有回答的问题,而且这个问题比测 Pass@1 有趣得多。
我测的是单轮 coding 任务——模型收到题目,返回代码,任务结束。这是可以测量的,也是目前所有类似研究都停留的地方。但真实的 agentic 工作流不长这个样子。Claude Code 执行一个任务时,内部要经历无数轮循环:读文件、写代码、运行测试、修 bug、再读文件。每一轮的 system prompt、tool call、bash 命令几乎全是英语——这是模型的"母语"工作空间。
那么问题来了:用户一开始输入的自然语言差异,在这一轮又一轮的内部调用里,会发生什么?
有两种可能。一种是稀释:每轮的英语上下文逐渐覆盖初始语言的影响,模型最终在接近英语的空间里操作,非英语用户的 token 劣势被部分抵消。如果是这样,我这篇研究高估了 Token Tax 在真实 agentic 场景里的烈度。
另一种是放大:每一轮输入都携带原始语言的 token overhead,用非英语描述的错误信息和上下文导致更多误解、更多重试,循环次数本身变成了不平等的乘数。如果是这样,单轮测量只是冰山一角。
据我所知,这个问题目前没有公开研究系统地回答过。不是因为它不重要,而是因为回答它需要一套足够底层的 agent 基础设施——不能依赖 Claude Code 或 Cursor,因为它们是黑盒,而且架构总会改变;需要自己构建一个可控的 ReAct 循环,把每一层的 token 消耗和语言影响都暴露出来,让结论可以超越任何一个具体的产品。
这是我正在做的事。如果放大效应是真实的,Token Tax 就不只是一个 tokenizer 的工程问题——它会是 agentic AI 时代最重要的结构性不平等之一,而且目前几乎没有人在认真对待它。
哪怕你包下了一整辆大巴车,公园的桥洞也不会变高。