日前,腾讯混元 3D 世界模型系列最新成员 —— HunyuanWorld-Voyager(混元 Voyager)正式发布,号称「业界首个支持原生 3D 重建的超长漫游世界模型」。

该模型聚焦于 AI 在空间智能领域的应用扩展,将为虚拟现实、物理仿真、游戏开发等领域提供高保真的 3D 场景漫游能力。
据官方介绍,混元 Voyager 突破了传统视频生成在空间一致性和探索范围上的局限,能够生成长距离、世界一致的漫游场景,支持将视频直接导出为 3D 格式。
混元 Voyager「3D 输入- 3D 输出」的特性,与此前已开源的混元世界模型 1.0 高度适配,可进一步扩展 1.0 模型漫游范围,并可对生成的场景做风格化控制和编辑。混元 Voyager 还可支持视频场景重建、3D 物体纹理生成、视频风格定制化生成、视频深度估计等多种 3D 理解与生成应用。
技术方面,混元 Voyager 首次通过空间与特征结合的方式,支持原生的 3D 记忆和场景重建;在输入端加入 3D 条件保证画面视角精准,输出端直接生成 3D 点云。同时 Voyager 还引入了可扩展的世界缓存机制,基于 1.0 模型生成的初始 3D 点云缓存,将其投影到目标相机视图,为扩散模型提供指导。
值得一提的是,该模型在斯坦福大学李飞飞团队发布的世界模型基准测试 WorldScore 上位居综合能力首位,超越现有开源方法,在视频生成和 3D 重建任务中均表现出色。在视频生成和视频 3D 重建两个任务上,Voyager 也均取得更好的结果。
HunyuanWorld-Voyager 现已正式上线,相关技术报告已公开,源代码在 GitHub 和 Hugging Face 上免费开放。
项目主页:https://3d-models.hunyuan.tencent.com/world/
Github:https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
Hugging Face:https://huggingface.co/tencent/HunyuanWorld-Voyager
技术报告:https://3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf