腾讯混元图像模型 2.1 上新开源：原生 2K 生图、中英文输入

9 月 10 日消息，腾讯昨日宣布混元图像模型 2.1 上新开源，支持原生 2K 生图和中英文原生输入。

腾讯还同步开源了“PromptEnhancer 文本改写模型”，输入“画一只可爱的猫”，会自动补全“橘色短毛猫趴在格子桌，爪边放饼干，水彩风”；支持中英文双向转换，用中文说“画带‘Dream’的星空蛋糕”，也能精准呈现，避免“表达模糊”。

混元图像模型 2.1 支持长达 1k tokens 的复杂语义超长 prompt，支持多主体分别描述与精确生成。

混元图像模型 2.1 对图像中文字的渲染和场景细节的把控更为稳定，减少了常见的文字错误与理解偏差。

混元图像模型 2.1 还支持生成各种风格，如真实感人物、漫画与搪胶手办等。

混元图像模型 2.1 还有以下亮点：

双通道文本编码器，同时使用通用和文字编码器：

视觉-语言多模态编码器，更好地理解场景描述、人物动作和细节需求。

多语言的 ByT5 文本编码器，增强模型的文字渲染能力。

VLM + 专家模型的结构化 Caption：

结构化 caption 提供多层次的语义信息，大幅提升模型在复杂语义上的响应能力。

创新性引入 OCR agent 和 IP RAG，补齐通用 VLM captioner 在密集文本和世界知识描述短板。

两阶段模型架构：

文生图模型：单双流网络架构，17B 模型参数。

Refiner 模型：采用类似图生图的条件生成结构，能显著减少畸形，同时进一步提升图像的质感和清晰度。

两阶段强化后训练：SFT 和 RL 两阶段后训练，自研 Reward Distribution Alignment 强化学习算法，创新性引入高质量图片作为 chosen 样本，强化效果稳定提升
高压缩率 VAE，大幅提升训练推理效率：

32 倍压缩率 VAE：dit 模型 token 输入数极大降低，对齐 VAE 与 dinov2 特征空间, 训练难度降低。2K 图生成耗时与同类模型 1K 图生成耗时持平。

多分辨率的 repa loss：用于加速模型收敛

meanflow 推理加速：首次在工业级模型上跑通 meanflow，推理步数由 100 步 –> 8 步、显著提升蒸馏效果
混元文本改写模型（PromptEnhancer）：首个系统化的工业级改写模型，通过 SFT 训练和 GRPO 训练，使得文本生成的图像语义大幅度提升，同时提出了 AlignEvaluator 涵盖 6 大类 24 个细粒度考点的奖励模型，PromptEnhancer 支持同时中英文改写。

1AI附混元图像模型 2.1 开源地址如下：

https://github.com/Tencent-Hunyuan/HunyuanImage-2.1

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

{{userData.name}}已认证

腾讯混元图像模型 2.1 上新开源：原生 2K 生图、中英文输入

AMD：人工智能仍被低估，AI PC 需基于性能优秀的 PC

谷歌 Veo 3 已支持生成 1080P 分辨率与竖屏视频，且费用大降

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

{{userData.name}}已认证

相关内容：

AMD：人工智能仍被低估，AI PC 需基于性能优秀的 PC

谷歌 Veo 3 已支持生成 1080P 分辨率与竖屏视频，且费用大降

腾讯混元文生图大模型对外开源：搭载首个中英双语 DiT 架构，免费商用

腾讯混元文生图大模型开源训练代码 发布LoRA与ControlNet插件

业界首个：腾讯混元-A13B 模型发布并开源，极端条件 1 张中低端 GPU 卡即可部署

业界首个，腾讯混元 3D 世界模型正式发布并开源

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注

腾讯混元文生图大模型开源训练代码发布LoRA与ControlNet插件