2026.04.23· MR· 世界模型· AI

Field Notes · 2026.04 · World Models × MR

世界模型在 MR 里的位置

NVIDIA、DeepMind、Meta、World Labs、腾讯、AMI Labs —— 八家在赌的不是同一件事。

世界模型在 MR 里的位置

写完上一篇《2026 年，MR 走到哪了》之后，我自己最大的体感是：MR 这一轮真正的赌注，已经从硬件转移到了 AI 一侧。

具体说就一件事：世界模型（World Models）。

如果它做不出来，2030 年的 MR 大概率还是『一个买不起内容的好硬件』；如果它做出来了，整个内容生产成本会一夜下降一两个数量级，MR 的故事会被重新讲一遍。

这篇笔记把我看到的九家玩家、两条路径、五个能力 gap、和一场没共识的辩论整理出来。

一、世界模型到底在做什么

抛开各种营销话术，这玩意做的事情其实很简单：给定当前的世界状态和一个动作，预测下一时刻的世界状态。

Fig 01 · World-Model Loop

世界模型干的事，本质上是"预测下一帧"

注：这是高度简化的 schematic。Sora 是没有显式动作输入的端到端视频；V-JEPA 在潜空间里预测但不做生成；Genie 3 把动作作为离散 token 喂进 transformer。

不同流派的差别在于怎么预测：

像素级生成派（Sora、Genie 3、HY-World 2.0） —— 直接生成下一帧图像/视频。所见即所得，适合做内容；
潜空间预测派（V-JEPA、AMI Labs） —— 只在抽象表示层做预测，不还原像素。LeCun 一直坚持这条路，认为前者是『学错方向』；
混合派（Cosmos、Marble） —— 同时做底层预测和上层生成，目的是给机器人/MR 提供训练数据和实时漫游。

这个分歧不是学术口水，它直接决定了哪种模型最先能塞进 MR 头显里。

二、九家公司，九种不同的赌法

把所有正在做这件事的人摆在一起看，会发现『世界模型』这个词覆盖的东西完全不一样：

Fig 02 · World-Model Players · 2026

九家公司，九种不同的赌法

Cosmos

底层基础

NVIDIA · 2025–

押『物理 AI 基础模型 + 数据管线』，做世界模型的 Linux

Cosmos-Predict / Reason / Transfer 三件套，配 Marble + Isaac Sim 端到端机器人训练

已发布 · 持续迭代

Genie 2 / 3

可交互生成

Google DeepMind · 2024–

把『一张图 → 可玩世界』走到底

Genie 3 显著改善长程一致性；动作作为离散 token，真正可交互

研究 · 2026 升级

V-JEPA 2

非生成式

Meta (FAIR) · 2024–

LeCun 路线：在潜空间里预测，不做像素生成

1.2B 参数；目标是『让 AI 像人一样知道世界怎么运转』

持续迭代

Marble / RTFM

3D 场景

World Labs（李飞飞） · 2024–· $230M

3D 场景生成 + 实时漫游

已与 NVIDIA Isaac 合作做机器人训练数据，企业拐点

已商业化

AMI Labs

非生成式

Yann LeCun（新公司） · 2026· $1.03B

彻底替代 LLM，押注 Advanced Machine Intelligence

2026.03 拿 $1.03B 融资；纯研究型，未公开产品

Stealth

HY-World 2.0

中国

腾讯 Hunyuan · 2026.04

中国第一个真正开源的世界模型

2026.04 开源；目标是把『生成 → 编辑 → 漫游』链路打通

开源

Sora 2

视频

OpenAI · 2025

隐式世界模型 —— 用视频生成把物理一起学了

支持音频；产品化更激进，但是否算 world model 仍有争议

已发布

Mirage

实时仿真

Decart · 2025

实时世界模拟 —— 输入键盘就能玩

把延迟做到可交互区间，是少数走『实时』而非『离线生成』的玩家

Beta

开悟 3.0

中国

商汤 · 2026

中文具身 + 城市级世界模型

和华为、车企的 Robotaxi 训练管线深度绑定

发布

几个值得单独点名的：

AMI Labs（LeCun 新公司） —— 2026 年 3 月拿到 $1.03B 融资，估值传 60 亿。他离开 Meta 后做的第一件事不是造大模型，而是赌『纯非生成式』的 Advanced Machine Intelligence。这件事本身就是对当下行业的反对票。
腾讯 HY-World 2.0 —— 2026.04 开源，是中文世界模型第一次真正向社区开放权重。中国厂商在这条线上从『跟跑』变成了『局部领跑』。
NVIDIA Cosmos × World Labs Marble —— 这两家从今年起捆绑得越来越紧。Marble 负责出 3D 场景，Cosmos 把它喂给 Isaac Sim 训练机器人。这不是一个产品，是一个基础设施栈。 它的对手不是 Sora，是『未来五年所有的 simulator』。
Decart Mirage —— 唯一押『实时』的玩家。99% 的世界模型还在做『生成一段 10 秒视频』，Mirage 在做『你按一下键盘，下一帧立刻给你』 —— 这才是 MR 真正要的形态。

把这八家放在一起看，会发现他们押的"形态"非常不一样：

Fig 07 · Visual Roster

八张照片：今天在做世界模型的玩家长什么样

底层基础

NVIDIA Cosmos

NVIDIA · 2025

物理 AI 的基础设施栈：Cosmos-Predict / Reason / Transfer 三件套。

三、两条相交路径

世界模型进 MR 有两条路，体量和成熟度差很多：

Fig 03 · Two Paths into MR

两条相交路径：内容生成 vs 实时仿真

A · 内容生成（离线）

把世界模型当作一个『超快的 3D 资产工厂』。已经有早期产品。

文本/图像

World Model（生成）

3D 资产 / 场景

构建到 MR 应用

B · 实时仿真（在线）

让世界模型直接成为体验本身的 run-loop。还在 demo 阶段。

用户动作 / 输入

World Model（实时预测）

渲染下一帧

回到用户感知

A 的成熟度更高 —— 因为它不要求实时；离线烤好就行。 World Labs Marble、NVIDIA Cosmos、HY-World 2.0 都先在这条线上跑。

B 才是 MR 真正想要的 —— 需要稳定的 30+ FPS、可控、低延迟。目前只有 Decart Mirage 有可用 demo，离工业级还差 2-3 年。

A 路径已经在跑 —— Marble 的 3D 场景已经塞进了若干 Unity / Unreal 工具链；HY-World 2.0 开源后会马上有人接到 Blender 里。它的瓶颈是质量和编辑性：你能生成一座城市，但改不动一栋楼。

B 路径才是真正性感的那条 —— 让世界模型直接当 MR 体验的运行时，不需要预先烤资产。它的瓶颈是延迟、可控、和稳定性。Mirage 的 demo 已经能跑 30+ FPS，但稳不住、改不准、长不了。这是接下来 3 年最值得追的方向。

四、能力差距盘点

把『MR 真正可用』当成 100 分，看看世界模型现在的位置：

Fig 04 · Capability Gaps · WM → MR

离『MR 可用』还差多少：五个能力维度的当前位置

视觉一致性

55 / 90

短片段不错，超过 30s 后人物/几何漂移；HY-World 2.0 改进明显但仍非工业级

物理准确性

38 / 80

刚体、流体、碰撞还是 hit-or-miss；Cosmos-Predict 是目前最认真的方向

长时连贯

22 / 75

记忆窗口仍是几秒到几十秒，世界状态难以长期保持

实时延迟

30 / 85

Decart Mirage 是可交互范例；多数模型仍需离线渲染

可控编辑

25 / 70

能生成但难精确改；MR 工具链最缺的就是『改一帧不影响其它』的能力

虚拟基准 = 行业自评的 2030 工业级阈值

这五条里我最关心长时连贯和可控编辑。

长时连贯不解决，世界模型就只能做『一段视频』而不是『一个世界』 —— Mirage 的实时 demo 跑超过两分钟就开始漂移，Genie 3 把这个数字推到了几十分钟，但仍然不够 MR 用。

可控编辑不解决，世界模型就只能给艺术家用，给不了产品经理用 —— 设计上最常见的需求是『改一个细节，别动其它』，但当前所有模型都做不到这件事。这是 MR 工具链未来 3 年最大的机会点之一。

五、这是一场未达成共识的辩论

不像 LLM 已经形成『预训练 + 指令微调 + RLHF』的事实共识，世界模型这条线上至今没有统一的定义、统一的评测、统一的胜出范式。

Fig 06 · Voices

这是一场未达成共识的辩论

▼ Skeptic

"今天的生成式视频模型不是世界模型。真正的世界模型应该能在抽象层面预测，而不是逐像素生成。"

Yann LeCun
Meta Chief AI Scientist · 现已离职创办 AMI Labs

▼ Skeptic

"Sora 看起来惊艳，但它对物理常识的把握仍然脆弱。把它叫做 world model 是营销用词。"

Gary Marcus
认知科学家

▼ Skeptic

"整个行业还没有一个被广泛接受的『世界模型』定义。这正是问题所在。"

Ben Dickson
TechTalks 主编

▲ Believer

"空间智能是 AI 的下一站。我们正在为机器构建对物理世界的常识。"

李飞飞
World Labs CEO

▲ Believer

"Physical AI 会比生成式 AI 大十倍。Cosmos 是它的基础设施。"

Jensen Huang
NVIDIA CEO

我自己的判断：短期生成式赢，长期非生成式赢，但这两条路可能在中间合并。

短期内能跑产品的只有像素级生成 —— 它对工程师友好、demo 容易做、用户能感知。但它在推理这一层是脆弱的。LeCun 的批评不是没道理：你看到的『真实』可能只是统计上的近似真实。

长期看，MR 想要的是『一个真的能跑 30 年的世界』，那一定是潜空间 + 生成解码的混合架构。AMI Labs 这次融到 $1B 之所以重要 —— 不是因为它会立刻出产品，而是因为这给『非生成式路线』续了 5 年命。

六、接下来五年

Fig 05 · Roadmap 2024–2030

世界模型 → MR 内容工厂的时间表

PAST

2024

Sora 1 / V-JEPA 1 发布

OpenAI · Meta

Genie 1 · 单图生成 2D 游戏

DeepMind

World Labs 成立 · $230M

李飞飞

PAST

2025

Cosmos-Predict / Reason / Transfer

NVIDIA

Genie 2 · 可交互场景

DeepMind

World Labs Marble / RTFM

World Labs

Decart Mirage 实时世界模拟 Beta

Decart

Sora 2 + 音频

OpenAI

NOW

2026

Hunyuan World 2.0 开源（首个开源世界模型）

腾讯

AMI Labs · $1.03B 融资 · LeCun 路线

Meta 系

Marble × Isaac Sim 机器人训练管线

World Labs × NVIDIA

开悟 3.0 城市世界模型

商汤

NEXT

2027

目标：文本 → 可交互 3D 场景工业级 demo

Cosmos · Genie · Marble 之一

Apple Smart Glasses 初代 · 轻 AR

Apple

Meta Orion 开发者版

Meta

FUTURE

2030

理想目标：实时 60 FPS 可交互世界生成

—

MR 内容成本相对 2024 下降 10–100×

—

AR 眼镜 4000–6500 万台保有量

对应 MR 行业基线

放进时间轴之后，可以更清楚地看到三件事：

2026 是开源年。 HY-World 2.0、可能还有 Cosmos 的进一步开放，会让中游玩家（像 XR 工具厂、3D 美术工作室）第一次能玩起世界模型。
2027 是验证年。 文本→可交互3D 场景能不能做到工业级 demo，决定了 MR 内容侧 2030 之前的天花板。如果 2027 年做到了，整个 MR 内容成本曲线会立刻被重画。
2030 是结算年。 三条路径——像素级生成、潜空间预测、混合架构——会有一条胜出，或者三条合流。赌哪一条胜出，是接下来五年最大的研究/投资问题。

总结

世界模型不是一个『更聪明的视频生成器』，它在赌的是：未来计算机看世界的方式。

对 MR 来说，它的意义只有一句话：这是过去 5 年内容做不出来这道题，唯一可能的解法。

但这个解法目前还非常不成熟 ——

九家公司在做九件不同的事，行业还没有共识这件事到底叫什么；
像素生成派能跑 demo，但在长时连贯和可控编辑上离工业级还差 2-3 年；
非生成式那条路有 LeCun 站台和 $1B 续命，但短期内不会出消费级产品；
中国阵营第一次有了开源的世界模型，给中游玩家打开了一道窗口。

对设计/硬件人的启示是： 不要把世界模型当成 ChatGPT 那样马上能用的工具去等。它更像 2017 年的深度学习 —— 有人在跑 demo，有人在押路线，但真正的产品形态还没出现。

如果你做内容工具，A 路径（生成 → 烤资产）是接下来 18 个月最现实的切入点；如果你做 MR 头显或操作系统，留出一条 B 路径（实时世界仿真）的接口 是未来三年最值得做的架构决策。

我自己更愿意押在 混合架构 上 —— 因为 MR 既要消费侧的『好看』，又要工业侧的『可信』，这两件事单一路线都答不上来。

Related Notes

← 思考

2026.04.23· MR· 世界模型· AI

Field Notes · 2026.04 · World Models × MR

世界模型在 MR 里的位置

NVIDIA、DeepMind、Meta、World Labs、腾讯、AMI Labs —— 八家在赌的不是同一件事。

世界模型在 MR 里的位置

写完上一篇《2026 年，MR 走到哪了》之后，我自己最大的体感是：MR 这一轮真正的赌注，已经从硬件转移到了 AI 一侧。

具体说就一件事：世界模型（World Models）。

这篇笔记把我看到的九家玩家、两条路径、五个能力 gap、和一场没共识的辩论整理出来。

一、世界模型到底在做什么

抛开各种营销话术，这玩意做的事情其实很简单：给定当前的世界状态和一个动作，预测下一时刻的世界状态。

Fig 01 · World-Model Loop

世界模型干的事，本质上是"预测下一帧"

注：这是高度简化的 schematic。Sora 是没有显式动作输入的端到端视频；V-JEPA 在潜空间里预测但不做生成；Genie 3 把动作作为离散 token 喂进 transformer。

不同流派的差别在于怎么预测：

像素级生成派（Sora、Genie 3、HY-World 2.0） —— 直接生成下一帧图像/视频。所见即所得，适合做内容；
潜空间预测派（V-JEPA、AMI Labs） —— 只在抽象表示层做预测，不还原像素。LeCun 一直坚持这条路，认为前者是『学错方向』；
混合派（Cosmos、Marble） —— 同时做底层预测和上层生成，目的是给机器人/MR 提供训练数据和实时漫游。

这个分歧不是学术口水，它直接决定了哪种模型最先能塞进 MR 头显里。

二、九家公司，九种不同的赌法

把所有正在做这件事的人摆在一起看，会发现『世界模型』这个词覆盖的东西完全不一样：

Fig 02 · World-Model Players · 2026

九家公司，九种不同的赌法

Cosmos

底层基础

NVIDIA · 2025–

押『物理 AI 基础模型 + 数据管线』，做世界模型的 Linux

Cosmos-Predict / Reason / Transfer 三件套，配 Marble + Isaac Sim 端到端机器人训练

已发布 · 持续迭代

Genie 2 / 3

可交互生成

Google DeepMind · 2024–

把『一张图 → 可玩世界』走到底

Genie 3 显著改善长程一致性；动作作为离散 token，真正可交互

研究 · 2026 升级

V-JEPA 2

非生成式

Meta (FAIR) · 2024–

LeCun 路线：在潜空间里预测，不做像素生成

1.2B 参数；目标是『让 AI 像人一样知道世界怎么运转』

持续迭代

Marble / RTFM

3D 场景

World Labs（李飞飞） · 2024–· $230M

3D 场景生成 + 实时漫游

已与 NVIDIA Isaac 合作做机器人训练数据，企业拐点

已商业化

AMI Labs

非生成式

Yann LeCun（新公司） · 2026· $1.03B

彻底替代 LLM，押注 Advanced Machine Intelligence

2026.03 拿 $1.03B 融资；纯研究型，未公开产品

Stealth

HY-World 2.0

中国

腾讯 Hunyuan · 2026.04

中国第一个真正开源的世界模型

2026.04 开源；目标是把『生成 → 编辑 → 漫游』链路打通

开源

Sora 2

视频

OpenAI · 2025

隐式世界模型 —— 用视频生成把物理一起学了

支持音频；产品化更激进，但是否算 world model 仍有争议

已发布

Mirage

实时仿真

Decart · 2025

实时世界模拟 —— 输入键盘就能玩

把延迟做到可交互区间，是少数走『实时』而非『离线生成』的玩家

Beta

开悟 3.0

中国

商汤 · 2026

中文具身 + 城市级世界模型

和华为、车企的 Robotaxi 训练管线深度绑定

发布

几个值得单独点名的：

AMI Labs（LeCun 新公司） —— 2026 年 3 月拿到 $1.03B 融资，估值传 60 亿。他离开 Meta 后做的第一件事不是造大模型，而是赌『纯非生成式』的 Advanced Machine Intelligence。这件事本身就是对当下行业的反对票。
腾讯 HY-World 2.0 —— 2026.04 开源，是中文世界模型第一次真正向社区开放权重。中国厂商在这条线上从『跟跑』变成了『局部领跑』。
NVIDIA Cosmos × World Labs Marble —— 这两家从今年起捆绑得越来越紧。Marble 负责出 3D 场景，Cosmos 把它喂给 Isaac Sim 训练机器人。这不是一个产品，是一个基础设施栈。 它的对手不是 Sora，是『未来五年所有的 simulator』。
Decart Mirage —— 唯一押『实时』的玩家。99% 的世界模型还在做『生成一段 10 秒视频』，Mirage 在做『你按一下键盘，下一帧立刻给你』 —— 这才是 MR 真正要的形态。

把这八家放在一起看，会发现他们押的"形态"非常不一样：

Fig 07 · Visual Roster

八张照片：今天在做世界模型的玩家长什么样

底层基础

NVIDIA Cosmos

NVIDIA · 2025

物理 AI 的基础设施栈：Cosmos-Predict / Reason / Transfer 三件套。

三、两条相交路径

世界模型进 MR 有两条路，体量和成熟度差很多：

Fig 03 · Two Paths into MR

两条相交路径：内容生成 vs 实时仿真

A · 内容生成（离线）

把世界模型当作一个『超快的 3D 资产工厂』。已经有早期产品。

文本/图像

World Model（生成）

3D 资产 / 场景

构建到 MR 应用

B · 实时仿真（在线）

让世界模型直接成为体验本身的 run-loop。还在 demo 阶段。

用户动作 / 输入

World Model（实时预测）

渲染下一帧

回到用户感知

A 的成熟度更高 —— 因为它不要求实时；离线烤好就行。 World Labs Marble、NVIDIA Cosmos、HY-World 2.0 都先在这条线上跑。

B 才是 MR 真正想要的 —— 需要稳定的 30+ FPS、可控、低延迟。目前只有 Decart Mirage 有可用 demo，离工业级还差 2-3 年。

四、能力差距盘点

把『MR 真正可用』当成 100 分，看看世界模型现在的位置：

Fig 04 · Capability Gaps · WM → MR

离『MR 可用』还差多少：五个能力维度的当前位置

视觉一致性

55 / 90

短片段不错，超过 30s 后人物/几何漂移；HY-World 2.0 改进明显但仍非工业级

物理准确性

38 / 80

刚体、流体、碰撞还是 hit-or-miss；Cosmos-Predict 是目前最认真的方向

长时连贯

22 / 75

记忆窗口仍是几秒到几十秒，世界状态难以长期保持

实时延迟

30 / 85

Decart Mirage 是可交互范例；多数模型仍需离线渲染

可控编辑

25 / 70

能生成但难精确改；MR 工具链最缺的就是『改一帧不影响其它』的能力

虚拟基准 = 行业自评的 2030 工业级阈值

这五条里我最关心长时连贯和可控编辑。

五、这是一场未达成共识的辩论

不像 LLM 已经形成『预训练 + 指令微调 + RLHF』的事实共识，世界模型这条线上至今没有统一的定义、统一的评测、统一的胜出范式。

Fig 06 · Voices

这是一场未达成共识的辩论

▼ Skeptic

"今天的生成式视频模型不是世界模型。真正的世界模型应该能在抽象层面预测，而不是逐像素生成。"

Yann LeCun
Meta Chief AI Scientist · 现已离职创办 AMI Labs

▼ Skeptic

"Sora 看起来惊艳，但它对物理常识的把握仍然脆弱。把它叫做 world model 是营销用词。"

Gary Marcus
认知科学家

▼ Skeptic

"整个行业还没有一个被广泛接受的『世界模型』定义。这正是问题所在。"

Ben Dickson
TechTalks 主编

▲ Believer

"空间智能是 AI 的下一站。我们正在为机器构建对物理世界的常识。"

李飞飞
World Labs CEO

▲ Believer

"Physical AI 会比生成式 AI 大十倍。Cosmos 是它的基础设施。"

Jensen Huang
NVIDIA CEO

我自己的判断：短期生成式赢，长期非生成式赢，但这两条路可能在中间合并。

六、接下来五年

Fig 05 · Roadmap 2024–2030

世界模型 → MR 内容工厂的时间表

PAST

2024

Sora 1 / V-JEPA 1 发布

OpenAI · Meta

Genie 1 · 单图生成 2D 游戏

DeepMind

World Labs 成立 · $230M

李飞飞

PAST

2025

Cosmos-Predict / Reason / Transfer

NVIDIA

Genie 2 · 可交互场景

DeepMind

World Labs Marble / RTFM

World Labs

Decart Mirage 实时世界模拟 Beta

Decart

Sora 2 + 音频

OpenAI

NOW

2026

Hunyuan World 2.0 开源（首个开源世界模型）

腾讯

AMI Labs · $1.03B 融资 · LeCun 路线

Meta 系

Marble × Isaac Sim 机器人训练管线

World Labs × NVIDIA

开悟 3.0 城市世界模型

商汤

NEXT

2027

目标：文本 → 可交互 3D 场景工业级 demo

Cosmos · Genie · Marble 之一

Apple Smart Glasses 初代 · 轻 AR

Apple

Meta Orion 开发者版

Meta

FUTURE

2030

理想目标：实时 60 FPS 可交互世界生成

—

MR 内容成本相对 2024 下降 10–100×

—

AR 眼镜 4000–6500 万台保有量

对应 MR 行业基线

放进时间轴之后，可以更清楚地看到三件事：

2026 是开源年。 HY-World 2.0、可能还有 Cosmos 的进一步开放，会让中游玩家（像 XR 工具厂、3D 美术工作室）第一次能玩起世界模型。
2027 是验证年。 文本→可交互3D 场景能不能做到工业级 demo，决定了 MR 内容侧 2030 之前的天花板。如果 2027 年做到了，整个 MR 内容成本曲线会立刻被重画。
2030 是结算年。 三条路径——像素级生成、潜空间预测、混合架构——会有一条胜出，或者三条合流。赌哪一条胜出，是接下来五年最大的研究/投资问题。

总结

世界模型不是一个『更聪明的视频生成器』，它在赌的是：未来计算机看世界的方式。

对 MR 来说，它的意义只有一句话：这是过去 5 年内容做不出来这道题，唯一可能的解法。

但这个解法目前还非常不成熟 ——

九家公司在做九件不同的事，行业还没有共识这件事到底叫什么；
像素生成派能跑 demo，但在长时连贯和可控编辑上离工业级还差 2-3 年；
非生成式那条路有 LeCun 站台和 $1B 续命，但短期内不会出消费级产品；
中国阵营第一次有了开源的世界模型，给中游玩家打开了一道窗口。

我自己更愿意押在 混合架构 上 —— 因为 MR 既要消费侧的『好看』，又要工业侧的『可信』，这两件事单一路线都答不上来。

Related Notes