生成速度快SDXL一倍，9GB GPU也能运行，Stable Cascade来搞性价比了

硬件要求越来越低，生成速度越来越快。

stability ai 作为文本到图像的先驱，不仅引领潮流，也不断在模型质量上取得新突破。这次，它实现了性价比的突破。

就在前几天，Stability AI 又有新动作了：Stable Cascade 的研究预览版被推出。这款文本到图像模型进行了创新，它引入了一个三阶段方法，为质量、灵活性、微调和效率设定了新的基准，重点是进一步消除硬件障碍。此外，Stability AI 发布了训练和推理代码，允许进一步自定义模型及其输出。该模型可在 diffusers 库中进行推理。该模型以非商业许可发布，仅允许非商业使用。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

原文链接：https://stability.ai/news/introducing-stable-cascade
代码地址：https://github.com/Stability-AI/StableCascade
体验地址：https://huggingface.co/spaces/multimodalart/stable-cascade

一如既往简单操作就能够生成目标图像：输入对图像的文字描述即可。

生成速度快SDXL一倍，9GB GPU也能运行，Stable Cascade来搞性价比了

^{图源：https://twitter.com/multimodalart/status/1757391981074903446}

Stable Cascade 的生成速度极快。X 平台用户 @GozukaraFurkan 发文表示它只需要大约 9GB 的 GPU 内存，且速度依旧能保持得较好。

生成速度快SDXL一倍，9GB GPU也能运行，Stable Cascade来搞性价比了

^{图源：https://twitter.com/skirano/status/1757479638324883753}

网友在生成过程中发现新模型在构图和细节方面有明显的提升，文字生成有了很大的进步：生成较短的单词 / 词组正确率比较高，长句也有一定概率可以完成（限英文），文字与画面的融合也非常好。

生成速度快SDXL一倍，9GB GPU也能运行，Stable Cascade来搞性价比了

^{图源：https://twitter.com/ZHOZHO672070/status/1757779330443215065}

生成速度快SDXL一倍，9GB GPU也能运行，Stable Cascade来搞性价比了

^{图源：https://twitter.com/tyyleai/status/1757883017329054104}

用户 @AIWarper 尝试了一些不同的艺术家风格测试。

生成速度快SDXL一倍，9GB GPU也能运行，Stable Cascade来搞性价比了

^{prompt：Nightmare on Elm Street。艺术家风格参考如下：左上为 Makoto Shinkai，左下为 Tomer Hanuka，右上为 Raphael Kirchner，右下为 Takato Yamamoto。}

不过，生|成人|物面部时可以发现，人物的皮肤细节并不太好，有种「十级磨皮」的感觉。

生成速度快SDXL一倍，9GB GPU也能运行，Stable Cascade来搞性价比了

^{图源：https://twitter.com/vitor_dlucca/status/1757511080287355093}

技术细节

Stable Cascade 与 Stable Diffusion 模型系列不同，它建立在由三个不同模型组成的管道上：阶段 A、B 和 C。这种架构可以对图像进行分层压缩，利用高度压缩的潜在空间实现较为出色的输出。这几个部分是如何组合在一起的呢？

生成速度快SDXL一倍，9GB GPU也能运行，Stable Cascade来搞性价比了

潜像生成器阶段（C 阶段）将用户输入转换为紧凑的 24x24 潜在表征，然后传递给潜在解码器阶段（阶段 A 和 B），用于压缩图像，这类似于 Stable Diffusion 中 VAE 的工作，但能够实现更高的压缩。

Machine Translation

聚合多个来源的AI翻译

49 查看详情 Machine Translation

通过将文本条件生成（阶段 C）与解码到高分辨率像素空间（阶段 A 和 B）解耦，我们就可以在阶段 C 上完成额外的训练或微调，包括 ControlNets 和 LoRA，与训练类似大小的 Stable Diffusion 模型相比，这成本可以缩减至其的十六分之一。阶段 A 和 B 可以选择性地进行微调以实现额外的控制，但这将类似于微调 Stable Diffusion 模型中的 VAE。在大多数情况下，这样做的收益微乎其微。因此，对于大多数用途，Stability AI 官方建议仅训练阶段 C 并使用阶段 A 和 B 的原始状态。

阶段 C 和 B 将发布两种不同的模型：阶段 C 的 1B 和 3.6B 参数模型，阶段 B 的 700M 和 1.5B 参数模型。推荐使用 3.6B 参数的模型作为阶段 C，因为该模型具有最高质量的输出。不过，对于那希望有最低硬件要求的用户，可以使用 1B 参数版本。对于阶段 B，发布的两者都能取得很好的结果，但 1.5B 参数的版本在重建细节方面表现更佳。得益于 Stable Cascade 的模块化方法，推理所需的预期 VRAM 要求可以保持在约 20GB。这可通过使用较小的变体进一步降低，需要注意的是，这也可能会降低最终输出质量。

比较

在评估中，Stable Cascade 与几乎所有模型比较中在 prompt 对齐和美学质量方面表现最佳。下图显示了使用混合的 parti-prompts 和美学提示进行人类评估的结果：

生成速度快SDXL一倍，9GB GPU也能运行，Stable Cascade来搞性价比了

^{Stable Cascade（30 个推理步骤）与 Playground v2（50 个推理步骤）、SDXL（50 个推理步骤）、SDXL Turbo（1 个推理步骤）和 Würstchen v2（30 个推理步骤）进行了比较}

生成速度快SDXL一倍，9GB GPU也能运行，Stable Cascade来搞性价比了

^{Stable Cascade、SDXL、Playground v2 和 SDXL Turbo 之间的推理速度差异}

Stable Cascade 对效率的重视通过其架构和更高的压缩潜在空间得到了证明。尽管最大的模型比 Stable Diffusion XL 多出 1.4B 参数，但它仍然具有更快的推理时间。

附加功能

除了标准的文本到图像生成外，Stable Cascade 还可以生成图像变体和图像到图像的生成。

图像变体通过使用 CLIP 从给定图像中提取图像嵌入，然后将其返回给模型。下图是示例输出。左侧图像显示原始图像，而其右侧的四个是生成的变体。

生成速度快SDXL一倍，9GB GPU也能运行，Stable Cascade来搞性价比了

图像到图像通过简单地向给定图像添加噪声，然后以此为起点生成图像。下面是对左侧图像添加噪声，然后以此为起点进行生成的示例。

生成速度快SDXL一倍，9GB GPU也能运行，Stable Cascade来搞性价比了

训练、微调、ControlNet 和 LoRA 的代码

随着 Stable Cascade 的发布，Stability AI 将发布用于训练、微调、ControlNet 和 LoRA 的所有代码，以降低进一步试验此架构的要求。以下将与模型一起发布的一些 ControlNets：

修补 / 扩图：输入一张图片，并配上一个遮罩，以配合文字提示。然后，模型将根据提供的文本提示填充图像的遮罩部分。

生成速度快SDXL一倍，9GB GPU也能运行，Stable Cascade来搞性价比了

Canny Edge：根据输入模型的现有图像的边缘生成新图像。根据 Stability AI 测试，它还可以扩展草图。

生成速度快SDXL一倍，9GB GPU也能运行，Stable Cascade来搞性价比了

^{顶部为输入模型的草图，底部为输出结果}

2 倍超分辨率：将图像的分辨率提升至其边长的 2 倍，例如将 1024 x 1024 的图像转化为 2048 x 2048 的输出，也可以用于由阶段 C 生成的潜在表示。

生成速度快SDXL一倍，9GB GPU也能运行，Stable Cascade来搞性价比了

这样的性价比，你喜欢吗？

以上就是生成速度快SDXL一倍，9GB GPU也能运行，Stable Cascade来搞性价比了的详细内容，更多请关注其它相关文章！

# 此为 # 食品网站建设目的 # 免费网站优化简历照片 # 西城短视频seo优化 # 泉州预约推广网站有哪些 # seo破解资源网 # 石家庄电商网站优化设计 # 学校网站的常规化建设 # 柳州网站推广宣传 # 媒体seo优化技术指导 # 哈尔滨seo搜索栏内容 # 卖得 # 进行了 # 中国 # 产业 # 更高 # 丰田 # 本田 # 一倍 # 速度快 # 也能 # type # controlnet # warp # playground # stable diffusion # tome

相关栏目：【 Google疑问12 】【 Facebook疑问10 】【优化推广96088 】【技术知识133117 】【 IDC资讯59369 】【网络运营7196 】【 IT资讯61894 】

2024-02-16

Notion AI怎么写笔记 Notion AI辅助写作及自动摘要生成技巧【教学】 AI一键生成高质量论文大纲 Claude帮你改写和润色文章 Claude写作风格优化技巧怎么用ai创作绘本 AI儿童故事与插画自动生成【秘籍】去哪旅行ai抢票助手怎么查看抢票历史_去哪旅行ai抢票助手历史记录查询与筛选【教程】如何用AI一键去除图片背景？AI自动抠图去底最强工具【实测】 DeepSeek数学建模应用指南 DeepSeek解决复杂问题技巧如何用AI一键扩图补全背景？Photoshop AI生成填充使用技巧【教程】 DeepSeek辅助撰写技术文档方法 DeepSeek开发者必备技巧文心一言官方网站在线入口文心一言在线版使用地址 Kimi国内访问入口_Kimi智能助手网页版链接直达如何用AI生成室内设计效果图？AI装修设计灵感生成指南【教程】 AI一键生成社交媒体自动回复蚂蚁阿福官网网页版入口_电脑端使用医保与健康服务如何用AI一键去视频水印 AI视频无痕去水印软件使用方法【教程】 Claude帮你解读晦涩的学术理论 Claude知识学习助手 Jasper AI怎么写社交媒体帖子 Jasper AI社媒内容创作【攻略】 DeepSeek长代码项目理解与分析 DeepSeek代码库学习方法 DeepSeek进行科学计算教程 DeepSeek物理建模与* AI一键生成短视频分镜头脚本

了解您产品搜索量及市场趋势，制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求，1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商，作为谷歌推广与Facebook广告全球合作伙伴，聚焦外贸企业出海痛点，以数字化营销为核心，提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持，打破传统外贸获客壁垒，助力企业高效开拓全球市场，成为中小企业出海的可靠合作伙伴。