· 世界模型· NeRF· MR
Video2Game:从一段视频反推一个可玩世界
Video2Game 是 UIUC + 上海交大 + Cornell 在 CVPR 2024 发的一个项目(arXiv:2404.09833)。一句话:录一段视频,自动产出一个可以在浏览器里跑、能交互、有物理的 3D 场景,跑到 100+ FPS。
跟 Genie 正好反着走
写完上一篇 Project Genie 的笔记 之后再看这个项目,体感很有意思 —— 它和 Genie 走的是两条相反的路:
- Genie:prompt → 生成世界。 一句话或一张图喂进去,模型脑补出一个从来没存在过的世界。优点是创意无限,缺点是几何会漂、物理会假、长不过 60 秒。
- Video2Game:video → 重建世界。 拍一段真实的视频,系统把它反向工程成一个有几何、有材质、有物理的可交互场景。优点是几何稳、物理准、能在浏览器里持续跑;代价是你只能玩"已经存在过的地方"。
一个幻觉,一个测绘。同一个目标(『让普通人能造可玩世界』),两条完全不同的技术路径。
三件套架构
它的方法栈也值得记一下,因为这是『把研究 NeRF 拼成产品』的范式:
- NeRF —— 先把视频里的几何和外观吃下来,做高保真重建;
- Mesh distillation —— 把 NeRF 蒸馏成传统三角网格,这样浏览器的 WebGL 能直接渲染;
- Physics module —— 在 mesh 之上挂一层刚体/碰撞,让用户能踢、撞、推。
NeRF 负责『看得真』,mesh 负责『跑得快』,physics 负责『能交互』。这个三层结构是 NeRF 系研究迈向产品化最具代表性的解法:研究阶段的成果(NeRF)保留下来当 ground truth,但运行时换成 30 年游戏引擎已经验证过的 mesh + 刚体。
它对 MR 意味着什么
放到 MR 的语境里,Video2Game 是一个非常接近 世界模型在 MR 里的位置 中『A 路径:生成→烤资产』的实例 —— 只不过它的『生成』是从真实视频里反推出来的,而不是从 prompt。
- 对头显厂商: 这条线意味着用户自己就能生产 MR 内容 —— 拿手机拍一段,回家戴头显就能逛。门槛从『3D 美术工作室』降到『手机摄像头』。
- 对世界模型派: 反过来证明了一个事 —— 并不是所有 3D 内容问题都得用生成式解。在『复刻一个真实场景』这个子问题上,重建派可能比生成派更快出工业级产品。
- 对设计师: 提醒我自己别把『世界模型』和『AI 生成』直接画等号。NeRF / Gaussian Splatting / Video2Game 这条重建线,在严肃应用(房产、建筑、博物馆、训练数据)里更可能先跑通商业闭环。
短期内我更看好『重建派先落地、生成派慢慢追上来』,最后两条线合并 —— 你拍一段真实视频建底,再用生成模型把没拍到的角落补全。这可能才是 MR 内容的终态。