硬件要求越来越低,生成速度越来越快。
stability ai 作为文本到图像的先驱,不仅引领潮流,也不断在模型质量上取得新突破。这次,它实现了性价比的突破。
就在前几天,Stability AI 又有新动作了:Stable Cascade 的研究预览版被推出。这款文本到图像模型进行了创新,它引入了一个三阶段方法,为质量、灵活性、微调和效率设定了新的基准,重点是进一步消除硬件障碍。此外,Stability AI 发布了训练和推理代码,允许进一步自定义模型及其输出。该模型可在 diffusers 库中进行推理。该模型以非商业许可发布,仅允许非商业使用。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

原文链接:https://stability.ai/news/introducing-stable-cascade
代码地址:https://github.com/Stability-AI/StableCascade
体验地址:https://huggingface.co/spaces/multimodalart/stable-cascade
一如既往简单操作就能够生成目标图像:输入对图像的文字描述即可。

图源:https://twitter.com/multimodalart/status/1757391981074903446
Stable Cascade 的生成速度极快。X 平台用户 @GozukaraFurkan 发文表示它只需要大约 9GB 的 GPU 内存,且速度依旧能保持得较好。

图源:https://twitter.com/skirano/status/1757479638324883753
网友在生成过程中发现新模型在构图和细节方面有明显的提升,文字生成有了很大的进步:生成较短的单词 / 词组正确率比较高,长句也有一定概率可以完成(限英文),文字与画面的融合也非常好。

图源:https://twitter.com/ZHOZHO672070/status/1757779330443215065

图源:https://twitter.com/tyyleai/status/1757883017329054104
用户 @AIWarper 尝试了一些不同
的艺术家风格测试。

prompt:Nightmare on Elm Street。艺术家风格参考如下:左上为 Makoto Shinkai,左下为 Tomer Hanuka,右上为 Raphael Kirchner,右下为 Takato Yamamoto。
不过,生|成人|物面部时可以发现,人物的皮肤细节并不太好,有种「十级磨皮」的感觉。

图源:https://twitter.com/vitor_dlucca/status/1757511080287355093
技术细节
Stable Cascade 与 Stable Diffusion 模型系列不同, 它建立在由三个不同模型组成的管道上:阶段 A、B 和 C。这种架构可以对图像进行分层压缩,利用高度压缩的潜在空间实现较为出色的输出。这几个部分是如何组合在一起的呢?

潜像生成器阶段(C 阶段)将用户输入转换为紧凑的 24x24 潜在表征,然后传递给潜在解码器阶段(阶段 A 和 B),用于压缩图像,这类似于 Stable Diffusion 中 VAE 的工作,但能够实现更高的压缩。
Machine Translation
聚合多个来源的AI翻译
49
查看详情
通过将文本条件生成(阶段 C)与解码到高分辨率像素空间(阶段 A 和 B)解耦,我们就可以在阶段 C 上完成额外的训练或微调,包括 ControlNets 和 LoRA,与训练类似大小的 Stable Diffusion 模型相比,这成本可以缩减至其的十六分之一。阶段 A 和 B 可以选择性地进行微调以实现额外的控制,但这将类似于微调 Stable Diffusion 模型中的 VAE。在大多数情况下,这样做的收益微乎其微。因此,对于大多数用途,Stability AI 官方建议仅训练阶段 C 并使用阶段 A 和 B 的原始状态。
阶段 C 和 B 将发布两种不同的模型:阶段 C 的 1B 和 3.6B 参数模型,阶段 B 的 700M 和 1.5B 参数模型。推荐使用 3.6B 参数的模型作为阶段 C,因为该模型具有最高质量的输出。不过,对于那希望有最低硬件要求的用户,可以使用 1B 参数版本。对于阶段 B,发布的两者都能取得很好的结果,但 1.5B 参数的版本在重建细节方面表现更佳。得益于 Stable Cascade 的模块化方法,推理所需的预期 VRAM 要求可以保持在约 20GB。这可通过使用较小的变体进一步降低,需要注意的是,这也可能会降低最终输出质量。
比较
在评估中,Stable Cascade 与几乎所有模型比较中在 prompt 对齐和美学质量方面表现最佳。下图显示了使用混合的 parti-prompts 和美学提示进行人类评估的结果:

Stable Cascade(30 个推理步骤)与 Playground v2(50 个推理步骤)、SDXL(50 个推理步骤)、SDXL Turbo(1 个推理步骤)和 Würstchen v2(30 个推理步骤)进行了比较

Stable Cascade、SDXL、Playground v2 和 SDXL Turbo 之间的推理速度差异
Stable Cascade 对效率的重视通过其架构和更高的压缩潜在空间得到了证明。尽管最大的模型比 Stable Diffusion XL 多出 1.4B 参数,但它仍然具有更快的推理时间。
附加功能
除了标准的文本到图像生成外,Stable Cascade 还可以生成图像变体和图像到图像的生成。
图像变体通过使用 CLIP 从给定图像中提取图像嵌入,然后将其返回给模型。下图是示例输出。左侧图像显示原始图像,而其右侧的四个是生成的变体。

图像到图像通过简单地向给定图像添加噪声,然后以此为起点生成图像。下面是对左侧图像添加噪声,然后以此为起点进行生成的示例。

训练、微调、ControlNet 和 LoRA 的代码
随着 Stable Cascade 的发布,Stability AI 将发布用于训练、微调、ControlNet 和 LoRA 的所有代码,以降低进一步试验此架构的要求。以下将与模型一起发布的一些 ControlNets:
修补 / 扩图:输入一张图片,并配上一个遮罩,以配合文字提示。然后,模型将根据提供的文本提示填充图像的遮罩部分。

Canny Edge:根据输入模型的现有图像的边缘生成新图像。根据 Stability AI 测试,它还可以扩展草图。

顶部为输入模型的草图,底部为输出结果
2 倍超分辨率:将图像的分辨率提升至其边长的 2 倍,例如将 1024 x 1024 的图像转化为 2048 x 2048 的输出,也可以用于由阶段 C 生成的潜在表示。

这样的性价比,你喜欢吗?
以上就是生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了的详细内容,更多请关注其它相关文章!
# 此为
# 食品网站建设目的
# 免费网站优化简历照片
# 西城短视频seo优化
# 泉州预约推广网站有哪些
# seo破解资源网
# 石家庄电商网站优化设计
# 学校网站的常规化建设
# 柳州网站推广宣传
# 媒体seo优化技术指导
# 哈尔滨seo搜索栏内容
# 卖得
# 进行了
# 中国
# 产业
# 更高
# 丰田
# 本田
# 一倍
# 速度快
# 也能
# type
# controlnet
# warp
# playground
# stable diffusion
# tome
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
李开复官宣新公司「零一万物」,进军 AI 2.0
Unity发布Sentis和Muse AI工具,助力创作游戏和3D内容
谷歌推出RT-2视觉语言动作模型,使机器人能够掌握垃圾丢弃技能
CharacterAI - 也许会成为会话人工智能的未来
马斯克WAIC2025演讲全文:AI将对人类文明产生深远影响
国内首款大尺寸仿鸵双足机器人“大圣”亮相,穿戴红色战袍
GPT-4不能在麻省理工学院获得计算机科学学位
特斯拉首发人形机器人“擎天柱”亮相世界人工智能大会
时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了
构建AI绘画网站的方法:使用API接口和调用步骤
280万条多模态指令-响应对,八种语言通用,首个涵盖视频内容的指令数据集MIMIC-IT来了
阿里大文娱CTO郑勇:生成式AI将引发内容行业巨变,*制作机会挑战并存
Midjourney 5.2震撼发布!原画生成3D场景,无限缩放无垠宇宙
微软AR/VR专利提出使用时间复用谐振驱动产生双极性电源
行业首发「超级智绘」AI故事集,TCL实业推进AI技术应用
AI进军债券交易,BondGPT来了!
大疆 Air 3 无人机售价和实物照片曝光
“苏南 vs 苏北” AI 分胜负,娱乐性比较工具 EitherChoice 上线
月薪6万,哪些AI岗位在抢人?
小米创始人雷军将揭示小米AI在年度演讲中的最新进展
提高开发效率:AmazonCodeWhisperer与Amazon Glue的集成和生成式AI的应用
NVIDIA垄断AI市场90%份额:AMD性能追上80% 软件太不能打
美图发布国内首个“懂美学的”AI视觉大模型MiracleVision
热点 | 人工智能黄金时代开启
“黑科技”亮相大湾区轨交论坛 智慧交通迈向“强AI”
生成式人工智能来了,如何保护未成年人? | 社会科学报
AYANEO 安卓掌机 Pocket AIR 配置公布:天玑 1200 + 5.5 英寸屏
猿辅导发布最新SaaS业务进展公告:Motiff UI设计工具推出三项新的AI功能
聚焦人工智能大模型、AIGC 徐汇十余场重磅论坛等你来
兆讯传媒率先全面拥抱AI 数智广告内容焕发新生机
微软为 AI 初学者推出免费网课:为期 12 周,共 24 节课
央广车联网亮相2025世界人工智能大会
严打“黑飞”,无人机检测反制设备护航大运会净空安全
2025年的网络分区:人工智能和自动化如何改变事物
赋能选题探索:AI助手在经济学专业中的应用指南
第二届光合组织AI解决方案大赛赛果揭晓
AYANEO AIR 1S 掌机发布:R7 7840U,预订价 4699 元起
鉴智机器人发布基于地平线征程5的标准视觉感知产品
美版贴吧8000小组自爆停摆!拒绝数据被谷歌OpenAI白嫖,CEO被网友骂翻:背刺第三方应用
爱设计PPT发布第二代AI一键生成PPT产品:智能、个性化、自动化
Gartner预测:到2025年,全球对话式人工智能支出预计将达到1860亿美元
插画师对AI绘画软件的态度是怎样的?
为什么很多人对纽约《人工智能招聘法》感到生气?
郭帆谈ChatGPT:电影行业需要创新,否则人工智能将让电影变得平庸
微软在 Build 大会上宣布的新 Microsoft Store AI Hub 现已开始推出
RoboNeo安装教程
携程发布旅游行业垂直大模型 梁建章:AI策略是做可靠的内容 放心的推荐
大语言模型的视觉天赋:GPT也能通过上下文学习解决视觉任务
世界人工智能大会上,科大讯飞宣布与华为联手
软通动力天枢元宇宙研究院签约落户江宁高新区
2024-02-16
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。