AI考了满分然后……

上周,某独角兽公司做了一个实验。
他们把市面上排名前三的大模型接入内部客服系统,跑了三个月。GPT-5、Claude 4、Gemini 3,每一个在 MMLU、HumanEval、GSM8K 上的分数都是神仙打架。CEO 信心满满地裁掉了 40 人的客服团队。
第三个月底,客户投诉率飙升 300%。
翻看记录,AI 的回答准确率 98%,逻辑无懈可击,语法完美。问题在哪?每个回答都像在写论文。 客户问"为什么扣了我两笔钱",AI 回了一篇 500 字的账单结构分析——偏偏没提"我们已经退款了"。
MMLU 满分。实战零分。
跑分的尽头是造假¶
这不是个案。整个 AI 行业正困在一场巨大的集体幻觉里:所有人都知道跑分没用,所有人都在跑分。
为什么?简单。投资人要看分。媒体只看分。老板要一个能在 PPT 上打勾的数字。
于是这场军备竞赛越打越荒谬。OpenAI 刚发新模型,Anthropic 第二天就甩出一张雷达图,暗戳戳地标了自己"略胜"的那一两个维度。Google 的反击是——发了一篇 67 页的论文,专门论证"为什么我们的分低但实际更好用"。
你说谁在撒谎?谁都没有。但谁都在玩同一个把戏。

一个在硅谷做模型评测的朋友跟我说了实话:"现在每个模型的训练流程里,都有一关叫'刷榜'。工程师知道测试集长什么样,就照着优化。跟高考一样——衡水中学出来的,理综能考 290,你让他设计个实验,他懵了。"
这就是古德哈特定律的 AI 版本:当一个指标变成了目标,它就不再是好的指标。
当考试本身成了答案¶
2025 年底,斯坦福发了一篇引爆业界的论文。核心结论只有一句话:主流基准测试已经被模型"背"下来了。
不是比喻。是真的背。
GPT-5 在 MATH 数据集上的准确率高达 97.8%。但把同样难度、换了一套数字的题目塞进去,准确率暴跌到 74%。差了 23 个百分点。
这相当于什么?你高考数学 140 分,进大学第一节课发现自己四则运算都不会——因为你的 140 分是背答案背出来的。
更荒诞的是评测本身。SWE-bench 号称衡量"软件工程能力",结果被扒出一半的测试用例有 bug。AlphaFold 的比赛成绩吹了三年,最后被人发现它的训练集里混入了测试数据。不是故意的——是行业标准的数据集划分方式本身就有问题。
你连考题都有问题,还谈什么成绩。
真实世界不考选择题¶
最有意思的对比发生在企业端。
微软 2026 年 Q1 内部报告:Copilot 生成的代码,单元测试通过率 96%,看着漂亮。但上线后的生产事故率反而上升了 14%。代码能跑,但没人考虑边界情况,没人处理异常,没人想过"这个 API 挂了怎么办"。
因为基准测试不考这些。

另一个扎心的例子。某投行用 AI 做财报分析,Fact Extraction 这项指标高达 99.3%。分析师们以为解放了。结果一季度报出来,一个实习生手动复核,发现 AI 把"营收同比下降 30%"理解成了"营收增长 30%"。方向完全反了。
99.3% 有个屁用。一个致命错误就够了。
基准测试考的是"会不会",真实世界考的是"行不行"。 这是两个完全不同的游戏。
谁在制定规则,谁就赢了¶
这个生态里最讽刺的角色,是评测平台自己。
LMSYS 的 Chatbot Arena 号称"最公正的人类盲评",但它的机制决定了——谁先发布,谁就占优。新模型一出来,用户蜂拥测试,好评如潮。两个月后新鲜感过了,评价开始回归均值。但初始高分已经写进了所有媒体的标题。
然后 Hugging Face 的 Open LLM Leaderboard 更离谱——它允许模型上传者自选参评的版本。你就选那个针对这个榜专门微调过的 checkpoint 呗,谁不会呢?
某头部 AI 公司的技术 VP 在私下跟我说了一句大实话:"我们现在做模型有两个版本。一个给人用的,一个给榜用的。给人用的那个从来不打榜。"
这句话值一万篇论文。
真正的好模型,没人测得了¶
那不看跑分看什么?
硅谷最前沿的那批人,已经开始靠"手感"来评估模型。听起来玄学,但你仔细想,你评价同事也不是看他的 GPA 吧?
Anthropic 的内部评估体系叫"红队 + 盲测 + 长线任务"。不考选择题,不给标准答案。就是给模型 300 个真实用户的真实问题,让 20 个评估员盲选哪边的回答更愿意读下去。
没有排名。不分 1 2 3。报告就是一大段描述性的 qualitative analysis。
投资人当然不爽。这种东西怎么写进 pitch deck?怎么给 LP 解释"我们的模型比 OpenAI 好,因为 20 个人觉得回答更舒服"?
但事实就是——真正厉害的东西,没法用一个数字说清楚。

分数的尽头,是信任的起点¶
1956 年,达特茅斯会议上那批人写下"人工智能"四个字时,没人想过 70 年后它会变成一场刷榜大赛。
评测不是原罪。需要标准本身没有错。错的是我们把标准当成了终点。
一个模型好不好用,用户打开它用三分钟就知道了,不需要看 Radar Chart。正如你面试一个人,聊十分钟就知道能不能干活,不需要看他四六级分数。
当所有人的分数都接近满分时,分数本身就成了最不值钱的东西。
而那个被裁掉 40 人客服团队的公司,最后又招了 20 个人回来。专门负责盯着 AI 的回答,确保它不会在"100% 准确"的前提下,把客户气到退订。
AI 考了满分。然后被开了。
这就是 2026 年的 AI 寓言。