AI把地球装进了硬盘

你走进一间你从未见过的房间。推门瞬间,你已经知道杯子会从桌边摔落、门推开会撞到椅子、窗户的光从哪里来。这件事你不需要想——你的大脑里装着一个世界模型。
现在,AI也有了一个。
2026年5月,这个赛道正在以令人窒息的速度狂奔。李飞飞的 World Labs 估值突破50亿美元,DeepMind 的 Genie 3 能从一张照片生成可交互的3D世界,NVIDIA 的 Cosmos 平台让机器人先在世界模型里「练」一万遍再出门。而 OpenAI 已经把世界模型能力嵌入了 Sora 的核心——不只是在生成视频,而是在模拟物理。
这不是「AI画图」的升级版。这是AI从看懂图片,进化到看懂世界。
为什么「理解世界」比「看懂图片」难一百倍¶
过去十年,AI学会了看图、识字、听声音。但它始终有个致命缺陷:不懂物理。
给GPT-4看一张照片,它能告诉你这是「一只猫坐在桌子上」。但它不知道猫跳下去需要多大的力,不知道桌子会不会翻,不知道如果杯子在桌子边缘、下一秒会发生什么。
世界模型要解决的问题就是这个:让AI拥有常识。

这件事的难度远超想象。一个三岁小孩都知道的东西——东西掉了会往下掉、水会流动、光被挡住会有影子——对AI来说却是天书。因为这不是模式识别,这是对物理因果的建模。
DeepMind 的 Genie 团队在论文里写了一句让人后背发凉的话:「我们不是在训练AI看视频,我们是在训练它预测下一秒会发生什么。」
预测下一秒。这意味着什么?意味着这个AI学到的不是画面,是规律。重力、摩擦力、动量守恒——它全学会了,没人教。
2025年底到现在,这个方向突然炸了。原因很简单:算力够了。
一场军备竞赛,三个狠角色¶
先说李飞飞。
这位斯坦福教授、ImageNet之母,在2024年创办World Labs时,很多人以为她在玩票。两年后,没有人敢这么说了。World Labs 的技术路线极其激进:直接从2D照片生成完整的、可以自由穿梭的3D空间。不是360度全景,不是拼接,是AI「想象」出照片里看不见的那一面。

然后看 DeepMind。
Genie 的名字不是白叫的——精灵。你给它一张手绘涂鸦,它还给你的是一座可以走来走去的3D城堡。Genie 2 能生成可控的交互式世界,Genie 3 据说已经开始理解物体间的复杂交互——你推一下桌子,桌上的东西会掉。
最狠的是 NVIDIA。
黄仁勋的算盘打得明白:世界模型是机器人的「驾校」。NVIDIA Cosmos 平台让机器人在虚拟世界里摔一万次、撞一万次——反正不要钱,也不会撞坏工厂。等你练好了,再放到真实世界里。这叫 sim-to-real。
这套打法已经在工厂里跑了。宝马的产线机器人,先在 Cosmos 里练了三个月的搬运和组装,上线后故障率降了 40%。
谁最需要世界模型?不是机器人公司¶
答案可能会让你意外:自动驾驶。
Wayve、Waymo、特斯拉——他们都在暗地里砸钱搞世界模型。逻辑很简单:自动驾驶最缺的就是「没见过但能猜出来」的能力。
一个开了一亿英里的自动驾驶系统,可能从来没遇到过「前面货车上滚下来一只汽油桶」的场景。人类司机会本能地预判:圆的→会滚→往左打方向。AI呢?它会懵。
世界模型就是治这个「懵」的药。它让AI不需要见过一万次汽油桶滚落,也能推断出下一秒会发生什么。

医疗领域也在抢。强生正在用世界模型模拟手术场景——让手术机器人先在数字人体上「开」一万刀,再上真人。这比用猪练省钱,比用尸体练人道,还比真人学员快一千倍。
还有一个意想不到的玩家——游戏行业。Roblox 已经在测试用世界模型实时生成游戏场景。不是预制好的地图,是AI根据你的行为即时「造」出来的世界。
然后呢?这就停下了吗?¶
没有。这才是可怕的。
世界模型的终局不是做更好的视频、更逼真的游戏。它的终局是:AI拥有一个比人类更精确的物理直觉。
想象一个世界模型训练到极致:它能预测天气、模拟气候、推演城市交通、计算建筑材料在五十年后的疲劳程度。它不是「做视频的AI」,它是一个可以运行整个物理世界的数字副本。
地球的副本。装在一排硬盘里。
这件事的好处不用多说:科学发现加速、工程试错成本归零、危险的物理实验全部虚拟化。但硬币的另一面同样锋利——
当AI比物理学家更懂物理,比工程师更懂结构,比医生更懂人体——我们还在这个等式里吗?
李飞飞在最近一次采访里说了一句耐人寻味的话:「空间智能是AI的最后一公里。过了这一公里,AI就从工具变成了代理者。」
代理者。不是工具。
这条路能不能走通,谁也不敢打包票。但2026年的夏天,所有人都开始跑了。