
昨天,腾讯混元正式发布并开源原生多模态生图模型「混元图像 3.0(HunyuanImage 3.0)」,参数规模高达 80B。
据介绍,这是首个开源工业级原生多模态生图模型,也是目前效果最强、参数量最大的开源生图模型,效果对标业界头部闭源模型。
混元图像 3.0 在语义理解、美学质感和推理能力上均有显著提升,能够解析千字级复杂语义并生成高质感图像。
与传统多模型组合方案不同,混元图像 3.0 采用原生多模态架构,可在单一模型内完成文字、图片、视频与音频等多模态输入输出。
官方表示,该模型不仅具备绘画能力,还拥有语言模型的常识与推理能力。例如输入提示词「生成一个月全食的四格科普漫画」,模型即可自主生成完整漫画,无需逐格描述。
此外,混元图像 3.0 在文字生成、复杂海报设计、漫画插画等场景中表现突出,能够满足插画师、设计师及内容创作者的多样化需求,大幅提升创作效率。
目前开放的版本仅支持文生图功能,图生图、图像编辑、多轮交互等能力将在后续逐步上线。
用户可通过电脑端访问腾讯混元官网体验该模型](https://hunyuan.tencent.com/image)体验该模型),模型权重与加速版本已同步上线 Github、Hugging Face 等开源社区,企业与个人开发者均可免费下载使用。
💻 Github:https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
🤗 Hugging Face:https://huggingface.co/tencent/HunyuanImage-3.0