据 Stability AI 官方新闻稿,Stability AI 日前推出了一款名为“Stable Cascade”的新一代文生图模型,该模型建立在 Würstchen 架构上,号称可以在消费级硬件上进行简单的训练和微调。
▲ 图源 Stability AI 官方新闻稿(下同)
官方声称,相对于业界熟悉的 SDXL,全新的 Stable Cascade 模型在性能及声称内容质量上均有所提升,目前 Stable Cascade 模型的相关数据已经在 GitHub 页面上公开,但仅允许非商业用途使用。
IT之家注意到,在用户输入文段后,相关内容会被 Stable Cascade 模型转换为 24x24 体积的小型数据集合,此后模型将解码这些小型图像数据生成图片,并继续将图片放大为高分辨率图像,由于系列步骤之间彼此分离,因此可以对模型各方面进行各种额外训练及微调。
Stability AI 表示,由于 Stable Cascade 模型采用如此“模块化”设计,因此能够有效降低推理使用的显存,号称只需要 20 GB 显存即可运行。
Stability AI 同时将 Stable Cascade 模型与 Playground v2、SDXL、SDXL Turbo、Würstchen v2 等业界文生图竞品进行比较,号称无论是提示词对齐(Prompt Alignment)还是在生成的图片细节上,Stable Cascade“几乎都是表现最佳的模型”。而在推理速度方面,即便 Stable Cascade 最大的模型比 Stable Diffusion XL 多出 14 亿参数,仍然具有更快的推理速度。
据此,官方认为 Stable Cascade 在架构设计方面较佳,可以在保持高质量输出的同时维持高效的推理速度。