...
在 autoresearch 时代,"哪里是罗马"比"怎么去罗马"更重要——一个干净的 benchmark 有多必要,以及我为何愈发尊重那些造 benchmark 的人。
tokenizer 对非英语语言的系统性偏差,在 agentic 时代被放大成结构性不平等——一份把 Token 不平等放到真实 API 环境里量化的研究。