世界模型在 MR 里的位置
写完上一篇 《2026 年,MR 走到哪了》 之后,我自己最大的体感是:MR 这一轮真正的赌注,已经从硬件转移到了 AI 一侧。
具体说就一件事:世界模型(World Models)。
如果它做不出来,2030 年的 MR 大概率还是『一个买不起内容的好硬件』;如果它做出来了,整个内容生产成本会一夜下降一两个数量级,MR 的故事会被重新讲一遍。
这篇笔记把我看到的九家玩家、两条路径、五个能力 gap、和一场没共识的辩论整理出来。
一、世界模型到底在做什么
抛开各种营销话术,这玩意做的事情其实很简单:给定当前的世界状态和一个动作,预测下一时刻的世界状态。
不同流派的差别在于怎么预测:
- 像素级生成派(Sora、Genie 3、HY-World 2.0) —— 直接生成下一帧图像/视频。所见即所得,适合做内容;
- 潜空间预测派(V-JEPA、AMI Labs) —— 只在抽象表示层做预测,不还原像素。LeCun 一直坚持这条路,认为前者是『学错方向』;
- 混合派(Cosmos、Marble) —— 同时做底层预测和上层生成,目的是给机器人/MR 提供训练数据和实时漫游。
这个分歧不是学术口水,它直接决定了哪种模型最先能塞进 MR 头显里。
二、九家公司,九种不同的赌法
把所有正在做这件事的人摆在一起看,会发现『世界模型』这个词覆盖的东西完全不一样:
几个值得单独点名的:
- AMI Labs(LeCun 新公司) —— 2026 年 3 月拿到 $1.03B 融资,估值传 60 亿。他离开 Meta 后做的第一件事不是造大模型,而是赌『纯非生成式』的 Advanced Machine Intelligence。这件事本身就是对当下行业的反对票。
- 腾讯 HY-World 2.0 —— 2026.04 开源,是中文世界模型第一次真正向社区开放权重。中国厂商在这条线上从『跟跑』变成了『局部领跑』。
- NVIDIA Cosmos × World Labs Marble —— 这两家从今年起捆绑得越来越紧。Marble 负责出 3D 场景,Cosmos 把它喂给 Isaac Sim 训练机器人。这不是一个产品,是一个基础设施栈。 它的对手不是 Sora,是『未来五年所有的 simulator』。
- Decart Mirage —— 唯一押『实时』的玩家。99% 的世界模型还在做『生成一段 10 秒视频』,Mirage 在做『你按一下键盘,下一帧立刻给你』 —— 这才是 MR 真正要的形态。
把这八家放在一起看,会发现他们押的"形态"非常不一样:
三、两条相交路径
世界模型进 MR 有两条路,体量和成熟度差很多:
A 路径已经在跑 —— Marble 的 3D 场景已经塞进了若干 Unity / Unreal 工具链;HY-World 2.0 开源后会马上有人接到 Blender 里。它的瓶颈是质量和编辑性:你能生成一座城市,但改不动一栋楼。
B 路径才是真正性感的那条 —— 让世界模型直接当 MR 体验的运行时,不需要预先烤资产。它的瓶颈是延迟、可控、和稳定性。Mirage 的 demo 已经能跑 30+ FPS,但稳不住、改不准、长不了。这是接下来 3 年最值得追的方向。
四、能力差距盘点
把『MR 真正可用』当成 100 分,看看世界模型现在的位置:
这五条里我最关心长时连贯和可控编辑。
长时连贯不解决,世界模型就只能做『一段视频』而不是『一个世界』 —— Mirage 的实时 demo 跑超过两分钟就开始漂移,Genie 3 把这个数字推到了几十分钟,但仍然不够 MR 用。
可控编辑不解决,世界模型就只能给艺术家用,给不了产品经理用 —— 设计上最常见的需求是『改一个细节,别动其它』,但当前所有模型都做不到这件事。这是 MR 工具链未来 3 年最大的机会点之一。
五、这是一场未达成共识的辩论
不像 LLM 已经形成『预训练 + 指令微调 + RLHF』的事实共识,世界模型这条线上至今没有统一的定义、统一的评测、统一的胜出范式。
"今天的生成式视频模型不是世界模型。真正的世界模型应该能在抽象层面预测,而不是逐像素生成。"
Meta Chief AI Scientist · 现已离职创办 AMI Labs
"Sora 看起来惊艳,但它对物理常识的把握仍然脆弱。把它叫做 world model 是营销用词。"
认知科学家
"整个行业还没有一个被广泛接受的『世界模型』定义。这正是问题所在。"
TechTalks 主编
"空间智能是 AI 的下一站。我们正在为机器构建对物理世界的常识。"
World Labs CEO
"Physical AI 会比生成式 AI 大十倍。Cosmos 是它的基础设施。"
NVIDIA CEO
我自己的判断:短期生成式赢,长期非生成式赢,但这两条路可能在中间合并。
短期内能跑产品的只有像素级生成 —— 它对工程师友好、demo 容易做、用户能感知。但它在 推理 这一层是脆弱的。LeCun 的批评不是没道理:你看到的『真实』可能只是统计上的近似真实。
长期看,MR 想要的是『一个真的能跑 30 年的世界』,那一定是潜空间 + 生成解码的混合架构。AMI Labs 这次融到 $1B 之所以重要 —— 不是因为它会立刻出产品,而是因为这给『非生成式路线』续了 5 年命。
六、接下来五年
放进时间轴之后,可以更清楚地看到三件事:
- 2026 是开源年。 HY-World 2.0、可能还有 Cosmos 的进一步开放,会让中游玩家(像 XR 工具厂、3D 美术工作室)第一次能玩起世界模型。
- 2027 是验证年。 文本→可交互3D 场景能不能做到工业级 demo,决定了 MR 内容侧 2030 之前的天花板。如果 2027 年做到了,整个 MR 内容成本曲线会立刻被重画。
- 2030 是结算年。 三条路径——像素级生成、潜空间预测、混合架构——会有一条胜出,或者三条合流。赌哪一条胜出,是接下来五年最大的研究/投资问题。
总结
世界模型不是一个『更聪明的视频生成器』,它在赌的是:未来计算机看世界的方式。
对 MR 来说,它的意义只有一句话:这是过去 5 年内容做不出来这道题,唯一可能的解法。
但这个解法目前还非常不成熟 ——
- 九家公司在做九件不同的事,行业还没有共识这件事到底叫什么;
- 像素生成派能跑 demo,但在长时连贯和可控编辑上离工业级还差 2-3 年;
- 非生成式那条路有 LeCun 站台和 $1B 续命,但短期内不会出消费级产品;
- 中国阵营第一次有了开源的世界模型,给中游玩家打开了一道窗口。
对设计/硬件人的启示是: 不要把世界模型当成 ChatGPT 那样马上能用的工具去等。它更像 2017 年的深度学习 —— 有人在跑 demo,有人在押路线,但真正的产品形态还没出现。
如果你做内容工具,A 路径(生成 → 烤资产)是接下来 18 个月最现实的切入点;如果你做 MR 头显或操作系统,留出一条 B 路径(实时世界仿真)的接口 是未来三年最值得做的架构决策。
我自己更愿意押在 混合架构 上 —— 因为 MR 既要消费侧的『好看』,又要工业侧的『可信』,这两件事单一路线都答不上来。
