2026.04.23· 世界模型· NeRF· MR

Video2Game：从一段视频反推一个可玩世界

Video2Game 是 UIUC + 上海交大 + Cornell 在 CVPR 2024 发的一个项目（arXiv:2404.09833）。一句话：录一段视频，自动产出一个可以在浏览器里跑、能交互、有物理的 3D 场景，跑到 100+ FPS。

官方 demo · Garden 场景里的实时漫游（来源：video2game.github.io）

跟 Genie 正好反着走

写完上一篇 Project Genie 的笔记之后再看这个项目，体感很有意思 —— 它和 Genie 走的是两条相反的路：

Genie：prompt → 生成世界。 一句话或一张图喂进去，模型脑补出一个从来没存在过的世界。优点是创意无限，缺点是几何会漂、物理会假、长不过 60 秒。
Video2Game：video → 重建世界。 拍一段真实的视频，系统把它反向工程成一个有几何、有材质、有物理的可交互场景。优点是几何稳、物理准、能在浏览器里持续跑；代价是你只能玩"已经存在过的地方"。

一个幻觉，一个测绘。同一个目标（『让普通人能造可玩世界』），两条完全不同的技术路径。

它的方法栈也值得记一下，因为这是『把研究 NeRF 拼成产品』的范式：

NeRF 负责『看得真』，mesh 负责『跑得快』，physics 负责『能交互』。这个三层结构是 NeRF 系研究迈向产品化最具代表性的解法：研究阶段的成果（NeRF）保留下来当 ground truth，但运行时换成 30 年游戏引擎已经验证过的 mesh + 刚体。

放到 MR 的语境里，Video2Game 是一个非常接近世界模型在 MR 里的位置中『A 路径：生成→烤资产』的实例 —— 只不过它的『生成』是从真实视频里反推出来的，而不是从 prompt。

对头显厂商： 这条线意味着用户自己就能生产 MR 内容 —— 拿手机拍一段，回家戴头显就能逛。门槛从『3D 美术工作室』降到『手机摄像头』。
对世界模型派： 反过来证明了一个事 —— 并不是所有 3D 内容问题都得用生成式解。在『复刻一个真实场景』这个子问题上，重建派可能比生成派更快出工业级产品。
对设计师： 提醒我自己别把『世界模型』和『AI 生成』直接画等号。NeRF / Gaussian Splatting / Video2Game 这条重建线，在严肃应用（房产、建筑、博物馆、训练数据）里更可能先跑通商业闭环。

短期内我更看好『重建派先落地、生成派慢慢追上来』，最后两条线合并 —— 你拍一段真实视频建底，再用生成模型把没拍到的角落补全。这可能才是 MR 内容的终态。

Video2Game：从一段视频反推一个可玩世界

官方 demo · Garden 场景里的实时漫游（来源：video2game.github.io）

跟 Genie 正好反着走

写完上一篇 Project Genie 的笔记之后再看这个项目，体感很有意思 —— 它和 Genie 走的是两条相反的路：

Genie：prompt → 生成世界。 一句话或一张图喂进去，模型脑补出一个从来没存在过的世界。优点是创意无限，缺点是几何会漂、物理会假、长不过 60 秒。

Video2Game：video → 重建世界。 拍一段真实的视频，系统把它反向工程成一个有几何、有材质、有物理的可交互场景。优点是几何稳、物理准、能在浏览器里持续跑；代价是你只能玩"已经存在过的地方"。

一个幻觉，一个测绘。同一个目标（『让普通人能造可玩世界』），两条完全不同的技术路径。

三件套架构

它的方法栈也值得记一下，因为这是『把研究 NeRF 拼成产品』的范式：

NeRF —— 先把视频里的几何和外观吃下来，做高保真重建；

Mesh distillation —— 把 NeRF 蒸馏成传统三角网格，这样浏览器的 WebGL 能直接渲染；

Physics module —— 在 mesh 之上挂一层刚体/碰撞，让用户能踢、撞、推。

它对 MR 意味着什么

对头显厂商： 这条线意味着用户自己就能生产 MR 内容 —— 拿手机拍一段，回家戴头显就能逛。门槛从『3D 美术工作室』降到『手机摄像头』。

对世界模型派： 反过来证明了一个事 —— 并不是所有 3D 内容问题都得用生成式解。在『复刻一个真实场景』这个子问题上，重建派可能比生成派更快出工业级产品。

对设计师： 提醒我自己别把『世界模型』和『AI 生成』直接画等号。NeRF / Gaussian Splatting / Video2Game 这条重建线，在严肃应用（房产、建筑、博物馆、训练数据）里更可能先跑通商业闭环。