全部标签

文生图模型

谷歌推出 Imagen 4 / Ultra 系列 AI 文生图模型，每张图片 0.04 美元起

6 月 26 日消息，谷歌推出了其最新版本的文本生成图像模型 Imagen 4，并推出了高端版本 Imagen 4 Ultra。与前代产品 Imagen 3 相比，此次更新旨在显著提升文本渲染效果。目前，这两个版本已上线 Gemini API 的付费预览版，并在 Google AI Studio 提供有限的免费测试。谷歌将 Imagen 4 定位为“适用于大多数任务”的通用模型，每张图像为定价 …
资讯
- 3.9k
25年6月26日
智谱首个能生成汉字的开源文生图模型 CogView4 发布，60 亿参数

3 月 4 日消息，大模型独角兽智谱今日发布 2025 开源年的第一个模型：首个支持生成汉字的开源文生图模型 —— CogView4。据悉，该模型在 DPG-Bench 基准测试中的综合评分排名第一，在开源文生图模型中达到 SOTA（最先进的）。该模型也是首个遵循 Apache 2.0 协议的图像生成模型。 GitHub 页面显示，智谱已适配并开源了 CogView-4 模型的 diffuser…
资讯
- 6k
25年3月4日
备战 DALL・E 3：谷歌“最强文生图模型”Imagen 3 正式上线

为迎战 DALL・E 3 模型，谷歌宣布其图片生成模型 Imagen 3 现已结束公开测试，正式上线。据介绍，Imagen 3 号称是谷歌最高级的文生图模型，该模型已于今年 8 月在美国向用户开放，而目前订阅了 Google Cloud 的用户均可以体验这款模型。谷歌声称，Imagen 3 可以理解长文本内容，生成细腻、生动且“照片级”的图片，同时视频中也不会出现较明显的视觉噪点。谷歌还为 …
资讯
- 5.6k
24年12月8日
开源文生图 AI 重磅选手上新：Stable Diffusion 3.5 最强全家桶登场、消费级硬件上“开箱即用”

Stability AI 公司昨日（10 月 22 日）发布博文，宣布推出 Stable Diffusion 3.5，这标志着开源 AI 文生图模型的重大进步。 Stable Diffusion 3.5 共有 Medium（10 月 29 日发布）、Large 和 Large Turbo 三种规模版本，旨在满足科学研究人员、爱好者、初创公司和企业的不同需求，附上相关介绍如下： Stable Dif…
头条
- 6.8k
24年10月23日
智谱开源文生图模型 CogView3-Plus，相关功能上线智谱清言 App

10 月 14 日消息，智谱技术团队今天宣布开源文生图模型 CogView3 及 CogView3-Plus-3B ，该系列模型的能力已经上线“智谱清言”App。据介绍，CogView3 是一个基于级联扩散的 text2img 模型，其包含如下三个阶段：第一阶段：利用标准扩散过程生成 512x512 低分辨率的图像。第二阶段：利用中继扩散过程，执行 2 倍的超分辨率生成，从 512x512 …
资讯
- 9.5k
24年10月14日
智谱AI发布GLM-4-Plus：媲美GPT-4，首创C端视频通话功能

智谱AI近日发布了其最新基座大模型GLM-4-Plus，展示了堪比OpenAI GPT-4的强大视觉能力，宣布于8月30日开放使用。主要更新亮点: 语言基础模型GLM-4-Plus:在语言解析、指令执行和长文本处理能力上实现了质的飞跃，持续保持在国际竞争中的领先地位。文生图模型CogView-3-Plus:性能与业界顶尖的MJ-V6和FLUX模型相媲美。图像/视频理解模型GLM-4V-Plu…
资讯
- 34.4k
24年8月31日
最大开源文生图模型FLUX下载安装，Dev版直出惊艳美图欣赏

FLUX模型简介在昨天的文章（FLUX12B震撼发布：SD创始团队，23G迄今最大开源文生图模型）中已经介绍过FLUX这款黑马文生图模型。这是一个12B参数，体积23.8G权重文件，迄今最大的开源文生图模型。这是由Black Forest Labs（Stable Diffusion 的原始团队）推出了最新开源模型，团队拥有强大的技术实力与已完成3100万美元的种子轮系列融资的黑马创业公司。包含：…
教程
- 115.5k
24年8月4日
FLUX12B震撼发布：SD创始团队，23G迄今最大开源文生图模型

FLUX模型简介 8月1这天开源文生图模型迈入了有一个大里程碑，黑森林实验室（一家已完成3100万美元的种子轮系列融资）的12B文生图大模型：FLUX震撼发布。这是迄今为止最大的文生图开源模型。这也是目前高质量的文生图模型，FLUX.1文生图模型套件，为文本到图像合成定义了新的最先进水平，在图像细节、提示遵循、风格多样性和场景复杂性方面树立了新的基准标准。在可访问性和模型能力之间取得平衡，FLUX…
百科
- 53k
24年8月3日
Stable Diffusion3开源商用协议，将开源更大版本模型

在最新的消息中，著名开源大模型平台 Stability AI 修改了社区许可协议，允许最新发布的文生图模型 Stable Diffusion3Medium（SD3-M）进行商业化使用。这一变化意味着个人开发者和初创企业可以免费商用这一强大的大模型，为行业带来了积极的发展机遇。根据新的协议规定，只要企业或个人开发者每年收入低于100万美元，即可向 Stability AI 申请免费商用 SD3-M…
资讯
- 8k
24年7月7日
Stable Audio Open 开源 AI 模型发布：48.6 万个样本训练，可创建 47 秒短音频 / 音效等

Stability AI 立足 Stable Diffusion 文生图模型，进一步向音频领域拓展，推出了 Stable Audio Open，可以基于用户输入的提示词，生成高质量音频样本。 Stable Audio Open 最长可以创建 47 秒的音乐，非常适合鼓点、乐器旋律、环境音和拟声音效，该开源模型基于 transforms 扩散模型（DiT），在自动编码器的潜在空间中操作，提高生成音频…
资讯
- 6.2k
24年6月7日
混元文生图模型Hunyuan DiT部署体验，具备强大中文创作能力的文生图模型

大家好，前面在介绍腾讯开源的混元-DiT文生图大模型时立过一个Flag：就是出一篇部署教程，因为我的显卡是16G，正好能满足最低的显存要求，之前也有朋友留言对这个比较感兴趣，所以今天，它来了！需要注意的是本次部署要求的电脑显卡必须达到显存11G以上，如果你想体验多轮对话的话显存需32G以上。本次教程也不再赘述显卡驱动以及Cuda的安装，感兴趣的可以阅读我之前的文章：《Ubuntu22.04 …
教程
- 17.6k
24年5月19日
阿里巴巴推出 AtomoVideo 高保真图生视频框架，兼容多种文生图模型

阿里巴巴研究团队近日推出了 AtomoVideo 高保真图生视频（I2V，Image to Video）框架，旨在从静态图像生成高质量的视频内容，并与各种文生图（T2I）模型兼容。 ▲ 图源 AtomoVIdeo 团队论文 AtomoVideo 特性如下：高保真度：生成的视频与输入图像在细节与风格上保持高度一致性运动一致性：视频动作流畅，确保时间上的一致性，不会出现突兀的跳转视频帧预测：通过…
资讯
- 7k
24年3月8日
Stability AI 推出新一代文生图模型 Stable Cascade，号称比 SDXL 更高效更强悍

据 Stability AI 官方新闻稿，Stability AI 日前推出了一款名为“Stable Cascade”的新一代文生图模型，该模型建立在 Würstchen 架构上，号称可以在消费级硬件上进行简单的训练和微调。 ▲ 图源 Stability AI 官方新闻稿（下同）官方声称，相对于业界熟悉的 SDXL，全新的 Stable Cascade 模型在性能及声称内容质量上均有所提升，目前…
资讯
- 7.6k
24年2月16日