AI医生的致命幻觉¶

王医生盯着屏幕上的诊断建议，后背发凉。

病人主诉头痛三天。AI助手给出的鉴别诊断里，赫然列着"脑囊虫病"——一个在中国发病率不到万分之一的寄生虫病。往下翻，它建议做的检查是"脑脊液PCR"，用药方案精确到了剂量。

要不是王医生多看了两眼，这位病人已经被送去做腰穿了。

而同样的事，正在全国上千家医院里，每天上演。

病历里的"鬼话"¶

这不是虚构段子。

2025年底，斯坦福医学院对四款主流医疗AI做了一次压力测试。结果让所有人背脊发凉：在复杂病例中，AI的临床建议有18%到35%包含严重错误。不是小错——是能把人送进ICU的那种。

更糟的是，这些错误藏得太深了。

AI不会写"病人需要吃彩虹糖"。它会用完美的临床语言编造一个根本不存在的症状，捏造一份从来没做过的化验结果，然后基于这些虚构条件，推导出一套完整的治疗方案。

病历里的鬼话

每一步都合乎医学逻辑。唯独起点是假的。

上海一家三甲医院的信息科负责人私下说了一句话，把问题讲穿了："以前的实习生瞎写，你一眼能看出来。AI瞎写，你得主任医师才能看出来。"

谁在给AI喂"毒"¶

问题出在三层。

第一层：训练数据本身带毒。医学文献里充满了矛盾和过时信息。某种降压药，2020年的指南说首选，2024年就被打脸了。AI把这些都吃进去了，分不出来。

第二层：AI根本不理解"病"。它只是在做文本接龙——看到"发热+咳嗽"，概率最高的下一个词是"肺炎"，它就写了。没有因果推理，没有体征查对，没有"这个病人的发热其实是因为昨天吹空调"的常识。

第三层最要命：AI不会说"我不确定"。

大模型的底层逻辑是"总得给个答案"。面对信息不全的病例，它宁可编一个，也不说不知道。一个真实案例：某AI医疗系统在缺少影像学数据的情况下，给一个腰痛患者推荐了脊柱手术——只因为"腰痛"在它的语料里高概率对应"椎间盘突出"。

后来查出来，病人只是搬了个柜子。

医院正在把方向盘交给AI¶

但吊诡的是，明知有问题，医院还是在狂买AI。

AI医生风暴

去年全国三级医院的AI采购量翻了将近三倍。AI写病历、AI辅助读片、AI开检查单——这些系统已经不是"试运行"，是"正式上岗"。

背后的账谁都会算：一个放射科医生一天看200张片子，AI能看20万张。一个急诊分诊护士忙到凌晨三点精力涣散，AI永远不困。

经济学赢了。安全被押后了。

监管部门到现在也没给出明确说法。 AI误诊了，到底算医疗事故还是软件bug？医生签了字但用的是AI建议，责任怎么分？AI公司说"我们这只是辅助决策"，医院说"批了预算不招标违法"，医生夹在中间签字背锅。

这就是赤裸裸的灰色地带。

最可怕的不是AI出错¶

业界现在流行一句话：不怕AI出错，就怕AI错得太像真的。

某次学术会议上，一位华西医院的教授展示了这样一个病例：AI给一个疑似心梗患者推荐了溶栓治疗，剂量、品牌、禁忌症筛查一应俱全。整个建议书看起来完美无缺。唯一的问题是——病人的心电图根本没显示ST段抬高。

AI编造了一个不存在的ST段抬高。

它是怎么做到的？不知道。大模型的黑箱里发生了什么，没人说得清楚。可能是在训练数据里，某种症状组合被高频地连到了"ST段抬高"这个词上。可能是某个被污染的病例报告把这两个变量强行绑在了一起。

总之，AI给出了一个精美绝伦的临床决策，建在一颗沙子上。

解药不是更好的AI¶

圈内开始有人说大实话了：别指望"下一代模型"解决问题。

幻觉不是bug，是大模型概率生成机制的本征特性。只要AI还是在预测下一个token，它就会在信息不足的时候编造。

那能怎么办？

以色列一家医院的做法值得看：他们给AI上了"手刹"。任何AI建议在进入医生视野之前，先过三道规则引擎——有没有引用实际检查数据？推荐等级和最新临床指南是否一致？药物剂量是否在安全范围？三道不过关的直接拦截。

他们没有追求让AI更聪明，他们追求的是让AI出不了大事。

另一条路是白名单机制。梅奥诊所的试点只让AI在六个高度标准化的场景里做建议——比如糖尿病血糖管理、常规疫苗排程、术后抗凝方案。这些场景变量少、证据充分、后果可控。不在白名单上的，AI闭嘴。

这就是残酷的现实：AI在医疗里最好的角色，不是做诊疗，是别添乱。

签字的人还是人¶

回到王医生那个故事。

他最后没采纳AI的建议。自己查了体，翻了两篇文献，下了个偏头痛的诊断。病人吃了三天药，好了。

但他后来说了一句话，比任何学术论文都扎心。

"那天如果我手滑点了'采纳AI建议'，病人现在可能已经脑膜炎了。但你说，下一个人，会手滑吗？"

AI给出的诊断，最后签字的是人。出了事，进去的也是人。

这不是技术问题。这是刀架在脖子上。

封面及配图由 AI 生成