跳转至

封面

AI医生的致命幻觉

王医生盯着屏幕上的诊断建议,后背发凉。

病人主诉头痛三天。AI助手给出的鉴别诊断里,赫然列着"脑囊虫病"——一个在中国发病率不到万分之一的寄生虫病。往下翻,它建议做的检查是"脑脊液PCR",用药方案精确到了剂量。

要不是王医生多看了两眼,这位病人已经被送去做腰穿了。

而同样的事,正在全国上千家医院里,每天上演。

病历里的"鬼话"

这不是虚构段子。

2025年底,斯坦福医学院对四款主流医疗AI做了一次压力测试。结果让所有人背脊发凉:在复杂病例中,AI的临床建议有18%到35%包含严重错误。不是小错——是能把人送进ICU的那种。

更糟的是,这些错误藏得太深了。

AI不会写"病人需要吃彩虹糖"。它会用完美的临床语言编造一个根本不存在的症状,捏造一份从来没做过的化验结果,然后基于这些虚构条件,推导出一套完整的治疗方案。

病历里的鬼话

每一步都合乎医学逻辑。唯独起点是假的。

上海一家三甲医院的信息科负责人私下说了一句话,把问题讲穿了:"以前的实习生瞎写,你一眼能看出来。AI瞎写,你得主任医师才能看出来。"

谁在给AI喂"毒"

问题出在三层。

第一层:训练数据本身带毒。医学文献里充满了矛盾和过时信息。某种降压药,2020年的指南说首选,2024年就被打脸了。AI把这些都吃进去了,分不出来。

第二层:AI根本不理解"病"。它只是在做文本接龙——看到"发热+咳嗽",概率最高的下一个词是"肺炎",它就写了。没有因果推理,没有体征查对,没有"这个病人的发热其实是因为昨天吹空调"的常识。

第三层最要命:AI不会说"我不确定"。

大模型的底层逻辑是"总得给个答案"。面对信息不全的病例,它宁可编一个,也不说不知道。一个真实案例:某AI医疗系统在缺少影像学数据的情况下,给一个腰痛患者推荐了脊柱手术——只因为"腰痛"在它的语料里高概率对应"椎间盘突出"。

后来查出来,病人只是搬了个柜子。

医院正在把方向盘交给AI

但吊诡的是,明知有问题,医院还是在狂买AI。

AI医生风暴

去年全国三级医院的AI采购量翻了将近三倍。AI写病历、AI辅助读片、AI开检查单——这些系统已经不是"试运行",是"正式上岗"。

背后的账谁都会算:一个放射科医生一天看200张片子,AI能看20万张。一个急诊分诊护士忙到凌晨三点精力涣散,AI永远不困。

经济学赢了。安全被押后了。

监管部门到现在也没给出明确说法。 AI误诊了,到底算医疗事故还是软件bug?医生签了字但用的是AI建议,责任怎么分?AI公司说"我们这只是辅助决策",医院说"批了预算不招标违法",医生夹在中间签字背锅。

这就是赤裸裸的灰色地带。

最可怕的不是AI出错

业界现在流行一句话:不怕AI出错,就怕AI错得太像真的。

某次学术会议上,一位华西医院的教授展示了这样一个病例:AI给一个疑似心梗患者推荐了溶栓治疗,剂量、品牌、禁忌症筛查一应俱全。整个建议书看起来完美无缺。唯一的问题是——病人的心电图根本没显示ST段抬高。

AI编造了一个不存在的ST段抬高。

它是怎么做到的?不知道。大模型的黑箱里发生了什么,没人说得清楚。可能是在训练数据里,某种症状组合被高频地连到了"ST段抬高"这个词上。可能是某个被污染的病例报告把这两个变量强行绑在了一起。

总之,AI给出了一个精美绝伦的临床决策,建在一颗沙子上。

解药不是更好的AI

圈内开始有人说大实话了:别指望"下一代模型"解决问题。

幻觉不是bug,是大模型概率生成机制的本征特性。只要AI还是在预测下一个token,它就会在信息不足的时候编造。

那能怎么办?

以色列一家医院的做法值得看:他们给AI上了"手刹"。任何AI建议在进入医生视野之前,先过三道规则引擎——有没有引用实际检查数据?推荐等级和最新临床指南是否一致?药物剂量是否在安全范围?三道不过关的直接拦截。

他们没有追求让AI更聪明,他们追求的是让AI出不了大事。

另一条路是白名单机制。梅奥诊所的试点只让AI在六个高度标准化的场景里做建议——比如糖尿病血糖管理、常规疫苗排程、术后抗凝方案。这些场景变量少、证据充分、后果可控。不在白名单上的,AI闭嘴。

这就是残酷的现实:AI在医疗里最好的角色,不是做诊疗,是别添乱。

签字的人还是人

回到王医生那个故事。

他最后没采纳AI的建议。自己查了体,翻了两篇文献,下了个偏头痛的诊断。病人吃了三天药,好了。

但他后来说了一句话,比任何学术论文都扎心。

"那天如果我手滑点了'采纳AI建议',病人现在可能已经脑膜炎了。但你说,下一个人,会手滑吗?"

AI给出的诊断,最后签字的是人。出了事,进去的也是人。

这不是技术问题。这是刀架在脖子上。


封面及配图由 AI 生成