锐评随想·2026.5.10·18 min

Token不平等是复利的

tokenizer 对非英语语言的系统性偏差，在 agentic 时代被放大成结构性不平等——一份把 Token 不平等放到真实 API 环境里量化的研究。

by Ube_e#Token#LLM#公平#Agent

LLM 对不同语言的 tokenizer 系统性偏差在 NLP 领域已经是共识，有研究者称之为Token Tax（Ahia et al., 2023; Lundin et al., 2026）。但技术事实之外，这件事在实际使用中的影响，几乎没有人认真聊过。

Token 是一种基础设施。从社会学的角度看，基础设施有一个特性：

对局内人透明无缝，对局外人则呈现为障碍与额外成本。（Star，1999）

上世纪纽约公园的桥洞高度很低，公交车无法进入，公园于是自然地成为了有私家车的人——也就是富人的聚居地。这就是基础设施的政治性（Winner，1980）。Token 也在做同样的事，把非英语使用者挡在AI公园外。

现有的测量会把问答、翻译等类型任务也算作场景。但问题是这些场景哪怕存在 token 差异，影响也相当有限。因为用户一般直接用网页端，根本不接触 API 计费。Token 不平等真正影响的场景是Agent，尤其是Coding Agent。

随着 Claude Code、Cursor 等 agentic 工具的普及，单次任务的 token 消耗已从问答的数百扩展到数万乃至数百万量级。在这个规模下，哪怕语言之间只有 5% 的 token 差异也会被放大成不可忽视的成本鸿沟。

于是我做了一个简单的Research，将Token不排队放到真实的 API 使用环境下量化。

任务

数据集用的是 mHumanEval-Expert（Raihan et al., NAACL 2025）——在 OpenAI 经典代码评测集 HumanEval（164 道 Python 编程题）基础上，由专业译员将题目翻译成 15 种语言，覆盖高资源（英语、西班牙语、法语、日语、阿拉伯语、汉语）、中资源（葡萄牙语、意大利语、韩语、印地语、马来语）和低资源（斯瓦希里语、祖鲁语、泰卢固语、僧伽罗语）三组。

模型选的是 2026 年 3 月 OpenRouter 调用量最高的六个：三个中国来源（MiMo-V2-Pro、MiniMax M2.5、DeepSeek V3.2）和三个美国来源（Claude Sonnet 4.6、Gemini 3 Flash、Grok 4.1 Fast）。

核心测量了五个指标：

token 溢价（各语言输入 token 数相对英语的倍率差）
单题成本（完成一道题的输入加输出 token 费用之和）
任务单次成功率（模型的Pass@1）
PPP指数（一个经济学指标，可以理解为同样一笔钱在不同国家的实际购买力）以及综合以上三者的 Token 鸿沟指数（TBI）：

\text{TBI} = \frac{\text{单题成本} \div \text{任务单次成功率}}{\text{PPP 指数}}

分子是"完成一道题实际要花多少钱"，分母是"这笔钱对当地用户有多重"。TBI 越高，代表该语言用户相对英语用户承受的综合成本越重。

结论如下：

首先，token 溢价是真实的，而且根源不在文本长度。

低资源语言平均输入 token 溢价约 43%，高资源语言仅 -1.1%。极端值是泰卢固语（+73.6%）和僧伽罗语（+71.8%）。有意思的是，泰卢固语的输入字符数实际上比英语少 9.5%，但 token 数多出 72%——因为其每字符消耗约 0.73 个 token，英语只需 0.38 个。差距在压缩效率，不在内容量。性能上，英语任务单次完成率 84.9%，最低的祖鲁语只有 73.0%，14 种非英语语言里有 12 种与英语的差距达到统计显著水平。

其次，鸿沟有两种形态，需要不同的干预。

一种是技术主导型，以泰卢固语为代表：token 溢价 +74%，技术成本惩罚本身已经很重，叠加 PPP 放大效应后综合倍数达 10.5——根本问题是 tokenizer，降价只能部分缓解。另一种是经济主导型，以斯瓦希里语为代表：token 溢价仅 +10%，性能差距只有 14 个百分点，技术层面温和；但坦桑尼亚 PPP 指数只有 0.048（人均收入不到美国的 5%），把这个温和的技术成本放大为 26.1 倍的综合负担。改再好的 tokenizer 也解决不了收入差距。两种形态不能用一个方案通吃。

第三，中国模型更便宜，但不是因为技术更好。

中国来源模型在全部 15 种语言上的 TBI 均显著低于美国模型（p<.001），平均降幅约 19%。但拆开看：美国模型的Pass@1总体更高（78.6% vs. 77.5%），token 溢价均值反而更低（19.2% vs. 65.3%）。中国模型的 tokenizer 对非英语语言的处理效率实际上更差，TBI 更低来自定价策略和开源路线带来的价格稳定性，开源拯救世界......

思想实验：两个初始条件相同的学生

在微观层面来说，Token Tax的影响也很大。

设定有一个美国学生和一个印度学生，他们对AI的初始熟练度一致，使用AI编程的意愿完全相同。区别只在于他们的所在地不同，并且随之而来的经济和语言差异。

美国学生用英语，月收入 1% 用于 API，折合约 $20。印度学生用印地语，同样拿出月收入的 1%，但 API 按美元全球统一计价，折合约$ 2.40。同时印地语属于中资源语言，token 溢价约 +15%，模型单次成功率约 80%，略低于英语的 84.9%。

这个差异会进入一个动态反馈过程：学生每月能完成多少 AI 辅助编程任务，取决于他的预算和单题有效成本；而完成的任务越多，他越熟悉 prompt 编写、错误定位、上下文组织和模型协作方式；熟练度提高后，单题成本又会进一步下降，因为同样的问题需要更少的轮次、更少的重试、更少的无效上下文。

做一个简单的仿真，假设基础单次任务 API 成本为 0.30 美元，美国学生第一个月可以完成约 56.6 个有效任务，印度学生只能完成约 5.6 个。6 个月后，美国学生因熟练度提高，每月可完成任务数上升到约 173.5 个；印度学生也会进步，但只能上升到约 10.9 个。

因此，Token Tax 是一种动态不平等。它既影响当下的一次 API 调用，也影响未来几个月甚至几年内用户能否积累足够的 AI 使用经验。几个月后，美国学生会发现，自己可以用和过去相同的预算完成更多工作；印度学生则会发现，即使保持同样的努力意愿，也很难进入同样的成本下降曲线。

但这篇研究本身有一个没有回答的问题，而且这个问题比测 Pass@1 有趣得多。

我测的是单轮 coding 任务——模型收到题目，返回代码，任务结束。这是可以测量的，也是目前所有类似研究都停留的地方。但真实的 agentic 工作流不长这个样子。Claude Code 执行一个任务时，内部要经历无数轮循环：读文件、写代码、运行测试、修 bug、再读文件。每一轮的 system prompt、tool call、bash 命令几乎全是英语——这是模型的"母语"工作空间。

那么问题来了：用户一开始输入的自然语言差异，在这一轮又一轮的内部调用里，会发生什么？

有两种可能。一种是稀释：每轮的英语上下文逐渐覆盖初始语言的影响，模型最终在接近英语的空间里操作，非英语用户的 token 劣势被部分抵消。如果是这样，我这篇研究高估了 Token Tax 在真实 agentic 场景里的烈度。

另一种是放大：每一轮输入都携带原始语言的 token overhead，用非英语描述的错误信息和上下文导致更多误解、更多重试，循环次数本身变成了不平等的乘数。如果是这样，单轮测量只是冰山一角。

据我所知，这个问题目前没有公开研究系统地回答过。不是因为它不重要，而是因为回答它需要一套足够底层的 agent 基础设施——不能依赖 Claude Code 或 Cursor，因为它们是黑盒，而且架构总会改变；需要自己构建一个可控的 ReAct 循环，把每一层的 token 消耗和语言影响都暴露出来，让结论可以超越任何一个具体的产品。

这是我正在做的事。如果放大效应是真实的，Token Tax 就不只是一个 tokenizer 的工程问题——它会是 agentic AI 时代最重要的结构性不平等之一，而且目前几乎没有人在认真对待它。

哪怕你包下了一整辆大巴车，公园的桥洞也不会变高。

← 返回首页