ST

Stable Cascade

多模态大模型

Stable Cascade

发布时间: 2024-02-12更新于: 2024-02-14 23:11:33531

在线体验GitHub Hugging Face Compare

模型参数

5亿

上下文长度

2K

中文支持

不支持

推理能力

Stable Cascade 是由 Stability AI 发布的 AI 模型，发布时间为 2024-02-12，定位为多模态大模型，参数规模约为 5.0B，上下文长度为 2K，模型文件大小约 20GB，采用 Stability AI Membership 许可。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

Stable Cascade

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

2K tokens

最大输出长度

暂无数据

模型类型

多模态大模型

发布时间

2024-02-12

模型文件大小

20GB

MoE架构

否

总参数 / 激活参数

5 亿 / 不涉及

知识截止

暂无数据

Stable Cascade

开源和体验地址

代码开源状态

Stability AI Membership

预训练权重开源

Stability AI Membership- 收费商用授权

GitHub 源码

https://github.com/Stability-AI/StableCascade

Hugging Face

https://huggingface.co/stabilityai/stable-cascade

在线体验

暂无在线体验地址

Stable Cascade

官方介绍与博客

官方论文

Introducing Stable Cascade

DataLearnerAI博客

暂无介绍博客

Stable Cascade

API接口信息

接口速度

暂无数据

暂无公开的 API 定价信息。

Stable Cascade

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

Stable Cascade

发布机构

Stability AI

查看发布机构详情

Stable Cascade

模型解读

Stable Cascade 是一种基于 Würstchen 架构的新型文本到图像模型，采用了三阶段方法，旨在简化模型的训练和微调，使之能够在消费级硬件上轻松运行。这一模型在非商业许可下发布，仅限于非商业用途。

主要亮点

新模型发布：Stable Cascade 在研究预览中发布，采用三阶段方法，提高了质量、灵活性、微调能力和效率，同时进一步降低了硬件要求。
技术细节：Stable Cascade 包括三个阶段（A、B、C），通过分层压缩图像，实现了使用高度压缩的潜在空间达到显著的输出效果。
训练和微调：提供了针对不同阶段的训练和微调脚本，特别是Stage C，可以单独进行训练或微调，显著降低成本。
参数规模与效率：Stage C 提供1B与3.6B参数两种模型，Stage B 提供700M与1.5B参数两种模型，强调了效率和质量的平衡。

性能比较

Stable Cascade 在几乎所有模型比较中，无论是在提示对齐还是美学质量方面，都表现最佳。
尽管其最大模型参数比Stable Diffusion XL多出1.4亿，但仍然展现出更快的推理速度。

附加功能

图像变体生成：通过使用CLIP提取给定图像的嵌入，然后返回给模型生成变体。
图像到图像生成：通过向给定图像添加噪声作为生成的起点。

代码支持

为了进一步降低实验的要求，Stable Cascade 发布了全部的训练、微调、ControlNet和LoRA代码。
发布的ControlNets包括：修复/外扩、Canny边缘检测、2倍超分辨率等功能。

结论

Stable Cascade 通过其三阶段方法和模块化设计，展现了在文本到图像生成领域的新里程碑。这一模型不仅提供了高质量的输出，还通过其创新的架构大幅降低了训练和推理的硬件要求，使得更多的用户能够在消费级硬件上进行实验和创作。尽管目前仅限于非商业用途，但Stable Cascade 的发布为进一步的研究和开发提供了强大的工具和可能性。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

DataLearner 官方微信二维码