腾讯混元文生图大模型开源:适合国人的文生图模型

前有OpenAI发布GPT-4o,后有Google发布Imagen3,而现在,腾讯也交出了他的一份答卷:混元文生图大模型全面升级并开源

这个是目前业内首个中文原生的DiT架构开源模型,并且支持中英文双语输入及理解。

什么是DiT架构呢?简单来说就是Stable diffusion3和Sora也是用的这种架构,但目前Sora并没有对外开放,而Stable diffusion3 也没有像之前说的完全开源,而混元大模型是完全开源的,从这一点看,我觉得腾讯混元团队还是非常有诚意的!(点个赞)

腾讯混元文生图大模型开源:适合国人的文生图模型

注:官方放出来的架构图,感兴趣可以看看,看不懂的可以让Kimi或者GPT4教你,实测有效

那么混元-DiT模型表现如何呢?请容我娓娓道来

1、支持中文提示词

前面提到,混元-DiT模型支持中英输入,所以对于国内的朋友是一个比较大的利好,不用再经历中文转英文的过程了。

腾讯混元文生图大模型开源:适合国人的文生图模型

注:这是放出来的几张效果图

2、长文本理解能力

简单来说就是能分析和理解长篇文本中的信息并生成相应艺术作品,这是官方放出来的效果图

腾讯混元文生图大模型开源:适合国人的文生图模型

3、支持多轮对话

也就是说可以通过多次对话来不断修改图片,从而达到我们的要求,毕竟有时候一次对话并不能很好地生成满意的图片。

如果你看我之前介绍文生视频工具Pika的文章,可能你对这个功能就不会陌生,因为Pika也是支持多轮对话修改视频的。

那么混元-DiT模型如何体验呢?很遗憾,目前的话,我并没有找到能够在线体验的地方!

虽然在混元-DiT模型的官网提到了欢迎你在腾讯混元助手体验,但是我登录进去之后,发现里面的模型并不是新开源的这个(还是说我不在灰度?),原因有三个:

腾讯混元文生图大模型开源:适合国人的文生图模型

第一是它的底部标明了是基于腾讯混元大模型V1.7.6,并且消息中心也没有最新的开源消息

腾讯混元文生图大模型开源:适合国人的文生图模型
腾讯混元文生图大模型开源:适合国人的文生图模型

第二就是官方放出来的视频中,我看到演示的版本其实是2.0

腾讯混元文生图大模型开源:适合国人的文生图模型

第三就是凭感觉了,在混元助手里面生成的图片明显感觉没有官网放出来的好,而且还需要“生成一张图片”等提示词触发。

所以如果想体验的话,只能参照Github上的说明安装并体验了,刚好我的电脑配置也满足要求,后续会单独出一期教学

腾讯混元文生图大模型开源:适合国人的文生图模型

最后在说说它和其他文生图模型的比较,这是Github上放出来的测试对比:

腾讯混元文生图大模型开源:适合国人的文生图模型

注:这是由50多名专业评测人员进行评测的结果

总体来讲,相对于其他开源模型是有所提升的,但是对于一些闭源模型就仍有差距,希望在开源的力量下变得更好!

相关地址:

混元-DiT官网:https://dit.hunyuan.tencent.com/

混元-DiT Github地址:https://github.com/Tencent/HunyuanDiT

混元助手地址:https://www.1ai.net/6765.html 

声明:内容均采集自公开的网站等各类媒体平台,若收录的内容侵犯了您的权益,请联系邮箱,本站将第一时间处理。
教程百科

Fooocus本地部署与使用教程,一款适合每个人的AI绘画工具

2024-5-19 11:10:11

教程百科

混元文生图模型Hunyuan DiT部署体验,具备强大中文创作能力的文生图模型

2024-5-19 11:52:43

搜索