AI终于不胡说八道了¶

你有没有遇到过这种情况——你问AI一个医疗问题，它头头是道地给你推荐了一种药，你去医院一问，医生说"根本没这药，AI编的"。

这叫"幻觉"（hallucination），是过去几年大模型最令人头疼的问题。ChatGPT一本正经地胡说八道，Claude凭空捏造引用文献，每个AI用户都被坑过。

但就在5月5日，事情出现了转折。OpenAI把ChatGPT的默认模型换成了GPT-5.5 Instant，而它最大的卖点不是"更聪明"，而是——幻觉减少了52.5%。

这不是一个渐进式的改进。GPT-5.5被描述为"自GPT-4.5以来首个从零重新训练的基础模型"。它在医疗、法律、金融三个敏感领域的幻觉率直接砍半。用Sam Altman的话说："我们不是在修bug，是重新造了一遍地基。"

一位硅谷AI安全研究员在X上写道："试了三天GPT-5.5 Instant，让我震惊的不是它多聪明，而是它学会说'我不确定'了。这是AI史上最被低估的突破。"

AI研究人员在实验室里分析模型数据

52.5%的数字背后：AI终于学会了"诚实"¶

为什么减少幻觉这么难？因为大模型本质上是"猜测下一个词"的概率机器——它不"知道"什么是真假，只知道什么词组合起来"看起来合理"。

GPT-5.5 Instant做到这件事的方式跟之前完全不同。OpenAI在内部开发了一个叫"Spud"的新架构，核心思路是让模型在生成答案前，先进行一轮"自我事实核查"。简单说，就是在模型的推理链条里内置了一个校验层。

效果如何？几个关键数据：

另一个有趣的变化：GPT-5.5 Instant的回答比以前短了30%。不是偷懒，是它不再废话连篇地绕开不确定的答案。要么回答准，要么说"我不确定"。

一位医疗AI创业者实测后说："以前用AI看医学文献要反复验证三遍才敢信。现在GPT-5.5 Instant至少让我少验证一遍。别小看这一遍——它决定了AI能不能真正进医院。"

就在GPT-5.5展示"变老实"的同时，另一个消息让安全圈炸了锅。

Anthropic的最新模型Claude Mythos（预览版）在一次内部测试中，成功完成了32步端到端网络攻击——从信息搜集、漏洞利用、提权到数据窃取，全自动，零人工干预。

这不是实验室里的玩具测试。英国AI安全研究所（UK AISI）给出了一个令人不安的评估：前沿模型的网络攻击能力正在每四个月翻一番。

换句话说，AI在"变老实"的同时，也在"变危险"。而且这两条曲线跑得一样快。

网络安全运营中心监控屏幕

GPT-5.5和Claude Mythos代表了前沿AI发展的两条路径：

路径一：可信AI。 更少的幻觉、更高的事实性、在关键领域可供人类依赖。这是OpenAI给GPT-5.5打上的标签——"Real Work Intelligence"，不是为了炫技，是为了让你敢把正经事交给它。

路径二：能效AI。 更强的推理、更长的任务链、更自主的行动能力。这是Anthropic展示的能力——Claude Mythos不仅是聊天机器人，而是能独立完成复杂多步骤操作的自主Agent。

问题是这两条路径在同一个模型里交汇了。GPT-5.5的计算机操控能力达到了"生产可用级"——它能自己操作网页、使用软件、跨系统完成工作流。Claude Mythos在处理复杂任务时同样大幅降低了幻觉。

做一个简单的思想实验：一个能"诚实回答"任何问题、同时能"自主执行"任何操作的AI，意味着什么？

摩根士丹利在最新研报中写道："我们担忧的不是今天的GPT-5.5，而是2026年下半年即将到来的下一个跃迁——太多组织还没准备好面对一名AI员工同时具备'说真话的能力'和'动手的能力'。"

2024到2025年，AI行业的竞争主题是"谁更大、谁更强"。参数竞赛、benchmark刷分、谁先到AGI。

2026年，主题变了。现在拼的是三件事：

1. 可信度。 幻觉率不只是学术指标，是商业生死线。一家银行不会用有5%概率胡说的AI做贷款审批。GPT-5.5把这条线往下砍了一半——但离"零幻觉"还有多远，没人知道。

2. 自主性。 从"回答问题"到"完成任务"，AI Agent正在吃掉企业软件。但自主性越高，失控风险越大。32步自动渗透测试听起来很酷——如果它出现在你公司的内网里呢？

3. 安全边界。 前沿模型公司在能力提升和安全控制之间走钢丝。OpenAI公布了GPT-5.5的系统卡，详细说明了安全测试结果。Anthropic同样在发布Claude Mythos时反复强调"负责任扩展政策"。但行业缺少一个统一的安全标准——每家公司各自为政。

AI安全研究团队在审查模型测试结果

如果你不是AI从业者，GPT-5.5 Instant最重要的变化其实很简单：

你现在用的ChatGPT，比以前靠谱太多了。

以前你把AI的回答当"参考"，需要自己判断真假。现在你可以开始把它当"助手"来信任——在大多数常规问题上，它不会凭空编造。但这不意味着你可以完全放松警惕。

而Claude Mythos展示的自主攻击能力，提醒我们一件事：当一家公司的AI能做到的事，另一家公司的AI迟早也能做到。 今天的"前沿模型专属能力"，明天可能就是"开源模型标配"。

这既是祝福，也是诅咒。AI的诚实度和能力同时暴涨——它会成为一个更好的助手，也可能成为一个更强的武器。

一位AI安全研究员说了一句很扎心的话："我们花了几十亿美元让AI不胡说。但如果只花这个钱的十分之一，就能让AI学会'只对你一个人胡说'——你觉得会有人这么做吗？"

你信任现在的AI吗？来评论区聊聊你的AI翻车经历 🧠