AI考了满分然后……

上周，某独角兽公司做了一个实验。

他们把市面上排名前三的大模型接入内部客服系统，跑了三个月。GPT-5、Claude 4、Gemini 3，每一个在 MMLU、HumanEval、GSM8K 上的分数都是神仙打架。CEO 信心满满地裁掉了 40 人的客服团队。

第三个月底，客户投诉率飙升 300%。

翻看记录，AI 的回答准确率 98%，逻辑无懈可击，语法完美。问题在哪？每个回答都像在写论文。 客户问"为什么扣了我两笔钱"，AI 回了一篇 500 字的账单结构分析——偏偏没提"我们已经退款了"。

MMLU 满分。实战零分。

跑分的尽头是造假¶

这不是个案。整个 AI 行业正困在一场巨大的集体幻觉里：所有人都知道跑分没用，所有人都在跑分。

为什么？简单。投资人要看分。媒体只看分。老板要一个能在 PPT 上打勾的数字。

于是这场军备竞赛越打越荒谬。OpenAI 刚发新模型，Anthropic 第二天就甩出一张雷达图，暗戳戳地标了自己"略胜"的那一两个维度。Google 的反击是——发了一篇 67 页的论文，专门论证"为什么我们的分低但实际更好用"。

你说谁在撒谎？谁都没有。但谁都在玩同一个把戏。

AI跑分竞赛

一个在硅谷做模型评测的朋友跟我说了实话："现在每个模型的训练流程里，都有一关叫'刷榜'。工程师知道测试集长什么样，就照着优化。跟高考一样——衡水中学出来的，理综能考 290，你让他设计个实验，他懵了。"

这就是古德哈特定律的 AI 版本：当一个指标变成了目标，它就不再是好的指标。

当考试本身成了答案¶

2025 年底，斯坦福发了一篇引爆业界的论文。核心结论只有一句话：主流基准测试已经被模型"背"下来了。

不是比喻。是真的背。

GPT-5 在 MATH 数据集上的准确率高达 97.8%。但把同样难度、换了一套数字的题目塞进去，准确率暴跌到 74%。差了 23 个百分点。

这相当于什么？你高考数学 140 分，进大学第一节课发现自己四则运算都不会——因为你的 140 分是背答案背出来的。

更荒诞的是评测本身。SWE-bench 号称衡量"软件工程能力"，结果被扒出一半的测试用例有 bug。AlphaFold 的比赛成绩吹了三年，最后被人发现它的训练集里混入了测试数据。不是故意的——是行业标准的数据集划分方式本身就有问题。

你连考题都有问题，还谈什么成绩。

真实世界不考选择题¶

最有意思的对比发生在企业端。

微软 2026 年 Q1 内部报告：Copilot 生成的代码，单元测试通过率 96%，看着漂亮。但上线后的生产事故率反而上升了 14%。代码能跑，但没人考虑边界情况，没人处理异常，没人想过"这个 API 挂了怎么办"。

因为基准测试不考这些。

真实办公场景中的AI失灵

另一个扎心的例子。某投行用 AI 做财报分析，Fact Extraction 这项指标高达 99.3%。分析师们以为解放了。结果一季度报出来，一个实习生手动复核，发现 AI 把"营收同比下降 30%"理解成了"营收增长 30%"。方向完全反了。

99.3% 有个屁用。一个致命错误就够了。

基准测试考的是"会不会"，真实世界考的是"行不行"。 这是两个完全不同的游戏。

谁在制定规则，谁就赢了¶

这个生态里最讽刺的角色，是评测平台自己。

LMSYS 的 Chatbot Arena 号称"最公正的人类盲评"，但它的机制决定了——谁先发布，谁就占优。新模型一出来，用户蜂拥测试，好评如潮。两个月后新鲜感过了，评价开始回归均值。但初始高分已经写进了所有媒体的标题。

然后 Hugging Face 的 Open LLM Leaderboard 更离谱——它允许模型上传者自选参评的版本。你就选那个针对这个榜专门微调过的 checkpoint 呗，谁不会呢？

某头部 AI 公司的技术 VP 在私下跟我说了一句大实话："我们现在做模型有两个版本。一个给人用的，一个给榜用的。给人用的那个从来不打榜。"

这句话值一万篇论文。

真正的好模型，没人测得了¶

那不看跑分看什么？

硅谷最前沿的那批人，已经开始靠"手感"来评估模型。听起来玄学，但你仔细想，你评价同事也不是看他的 GPA 吧？

Anthropic 的内部评估体系叫"红队 + 盲测 + 长线任务"。不考选择题，不给标准答案。就是给模型 300 个真实用户的真实问题，让 20 个评估员盲选哪边的回答更愿意读下去。

没有排名。不分 1 2 3。报告就是一大段描述性的 qualitative analysis。

投资人当然不爽。这种东西怎么写进 pitch deck？怎么给 LP 解释"我们的模型比 OpenAI 好，因为 20 个人觉得回答更舒服"？

但事实就是——真正厉害的东西，没法用一个数字说清楚。

服务器机房的真实世界

分数的尽头，是信任的起点¶

1956 年，达特茅斯会议上那批人写下"人工智能"四个字时，没人想过 70 年后它会变成一场刷榜大赛。

评测不是原罪。需要标准本身没有错。错的是我们把标准当成了终点。

一个模型好不好用，用户打开它用三分钟就知道了，不需要看 Radar Chart。正如你面试一个人，聊十分钟就知道能不能干活，不需要看他四六级分数。

当所有人的分数都接近满分时，分数本身就成了最不值钱的东西。

而那个被裁掉 40 人客服团队的公司，最后又招了 20 个人回来。专门负责盯着 AI 的回答，确保它不会在"100% 准确"的前提下，把客户气到退订。

AI 考了满分。然后被开了。

这就是 2026 年的 AI 寓言。