新晋图像生成王者扩散模型-德赢Vwin官网网

新晋图像生成王者扩散模型，刚刚诞生没多久。

有关它的理论和实践都还在“野蛮生长”。

来自英伟达StyleGAN的原班作者们站了出来，尝试给出了一些设计扩散模型的窍门和准则，结果模型的质量和效率都有所改进，比如将现有ImageNet-64模型的FID分数从2.07提高到接近SOTA的1.55分。

他们这一工作成果迅速得到了业界大佬的认同。

DeepMind研究员就称赞道：这篇论文简直就是训练扩散模型的人必看，妥妥的一座金矿。

三大贡献显著提高模型质量和效率

我们从以下几个方面来看StyleGAN作者们对扩散模型所做的三大贡献：

用通用框架表示扩散模型

在这部分，作者的贡献主要为从实践的角度观察模型背后的理论，重点关注出现在训练和采样阶段的“有形”对象和算法，更好地了解了组件是如何连接在一起的，以及它们在整个系统的设计中可以使用的自由度（degrees of freedom）。

精华就是下面这张表：

该表给出了在他们的框架中复现三种模型的确定变体的公式。

（这三种方法（VP、VE、iDDPM+ DDIM）不仅被广泛使用且实现了SOTA性能，还来自不同的理论基础。）

这些公式让组件之间原则上没有隐含的依赖关系，在合理范围内选择任意单个公示都可以得出一个功能模型。

随机采样和确定性采样的改进

作者的第二组贡献涉及扩散模型合成图像的采样过程。

他们确定了最佳的时间离散化（time discretization），对采样过程应用了更高阶的Runge–Kutta方法，并在三个预训练模型上评估不同的方法，分析了随机性在采样过程中的有用性。

结果在合成过程中所需的采样步骤数量显着减少，改进的采样器可以用作几个广泛使用的扩散模型的直接替代品。

先看确定性采样。用到的三个测试模型还是上面的那三个，来自不同的理论框架和模型族。

作者首先使用原始的采样器（sampler）实现测量这些模型的基线结果，然后使用表1中的公式将这些采样方法引入他们的统一框架，再进行改进。

接着根据在50000张生成图像和所有可用真实图像之间计算的FID分数来评估质量。

可以看到，原始的的确定性采样器以蓝色显示，在他们的统一框架（橙色）中重新实现这些方法会产生类似或更好的结果。

作者解释，这些差异是由于原始实现中的某些疏忽，加上作者对离散噪声级的处理更仔细造成的。

确定性采样好处虽然多，但与每一步都向图像中注入新噪声的随机采样相比，它输出的图像质量确实更差。

不过作者很好奇，假设ODE（常微分方程）和SDE（随机微分方程）在理论上恢复相同的分布，随机性的作用到底是什么？

在此他们提出了一种新的随机采样器，它将现有的高阶ODE积分器与添加和去除噪声的显式“Langevin-like ‘churn’”相结合。

最终模型性能提升显著，而且仅通过对采样器的改进，就能够让ImageNet-64模型原来的FID分数从2.07提高到1.55，接近SOTA水平。

预处理和训练

作者的第三组贡献主要为分数建模（score-modeling）神经网络的训练。

这部分继续依赖常用的网络体系结构（DDPM、NCSN），作者通过对扩散模型设置中网络的输入、输出和损失函数的预处理进行了原则性分析，得出了改进训练动态的最佳实践。

比如使用依赖于σ（noise level）的跳跃连接对神经网络进行预处理，使其能够估计y（signal）或n（noise），或介于两者之间的东西。

下表具体展示了模型彩英不同训练配置得到的FID分数。

作者从基线训练配置开始，使用确定性采样器（称为配置A），重新调整了基本超参数（配置B），并通过移除最低分辨率层，并将最高分辨率层的容量加倍来提高模型的表达能力（配置C）。

然后用预处理（配置D）替换原来的{cin，cout，cnoise，cskip}选项。这使结果基本保持不变，但VE在64×64分辨率下有很大改善。该预处理方法的主要好处不是改善FID本身，而是使训练更加稳健，从而将重点转向重新设计损失函数又不会产生不利影响。

VP和VE只在Fθ的架构上有所不同（配置E和F）。

除此之外，作者还建议改进训练期间的噪声级分布，并发现通常与GANs一起使用的无泄漏风险增强（non-leaking augmentation）操作也有利于扩散模型。

比如从上表中，我们可以看到：有条件和无条件CIFAR-10的最新FID分别达到了1.79和1.97，打破了之前的记录（1.85和2.1046）。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表德赢Vwin官网网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

算法

算法

+关注

关注
23

文章
4607

浏览量
92826
模型

模型

+关注

关注
1

文章
3226

浏览量
48806

原文标题：DeepMind谷歌研究员力荐：扩散模型效率&生成质量提升窍门，来自StyleGAN原作者

文章出处：【微信号：CVSCHOOL，微信公众号：OpenCV学堂】欢迎添加关注！文章转载请注明出处。

浙大、微信提出精确反演采样器新范式，彻底解决扩散模型反演问题

随着扩散生成模型的发展，人工智能步入了属于 AIGC 的新纪元。扩散生成模型可以对初始高斯噪声进

发表于 11-27 09:21 •160次阅读

浙大、微信提出精确反演采样器新范式，彻底解决<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>反演问题

扩散模型的理论基础

扩散模型的迅速崛起是过去几年机器学习领域最大的发展之一。在这本简单易懂的指南中，学习你需要知道的关于扩散模型的一切。

发表于 10-28 09:30 •312次阅读

<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>的理论基础

Meta发布Imagine Yourself AI模型，重塑个性化图像生成未来

Meta公司近日在人工智能领域迈出了重要一步，隆重推出了其创新之作——“Imagine Yourself”AI模型，这一突破性技术为个性化图像生成领域带来了前所未有的变革。在社交媒体与虚拟现实技术

发表于 08-26 10:59 •501次阅读

如何用C++创建简单的生成式AI模型

生成式AI（Generative AI）是一种人工智能技术，它通过机器学习模型和深度学习技术，从大量历史数据中学习对象的特征和规律，从而能够生成全新的、完全原创的内容，包括文本、图像、

发表于 07-05 17:53 •844次阅读

Runway发布Gen-3 Alpha视频生成模型

专为电影和图像内容创作者提供生成式AI工具的Runway公司近日宣布，其最新的Gen-3 Alpha视频生成模型已经正式问世。这款模型在多方

发表于 06-19 09:25 •567次阅读

南开大学和字节跳动联合开发一款StoryDiffusion模型

近日，南开大学和字节跳动联合开发的 StoryDiffusion 模型解决了扩散模型生成连贯图像与视频的难题。

发表于 05-07 14:46 •1261次阅读

KOALA人工智能图像生成模型问世

近日，韩国科学团队宣布研发出名为 KOALA 的新型人工智能图像生成模型，该模型在速度和质量上均实现了显著突破。KOALA 能够在短短 2 秒内生成

发表于 03-05 10:46 •777次阅读

韩国科研团队发布新型AI图像生成模型KOALA，大幅优化硬件需求

由此模型的核心在于其运用了“知识蒸馏”（knowledge distillation）技术，这使得开源图像生成工具Stable Diffusion XL可大幅缩小其规模。原Stable Diffusion XL拥有25.6亿个参

发表于 03-01 14:10 •618次阅读

谷歌Gemini AI模型因人物图像生成问题暂停运行

据报道，部分用户发现Gemini生成的图片存在明显错误，如特斯拉创始人和其他名人变成了黑人模样。谷歌已决定暂停该模型的人物图像生成功能以待改善。

发表于 02-25 09:59 •582次阅读

openai发布首个视频生成模型sora

美国当地时间2024年2月15日，OpenAI正式发布文生视频模型Sora ，并发布了48个文生视频案例和技术报告，正式入局视频生成领域。Sora能够根据提示词生成60s的连贯视频，“碾压”了

发表于 02-21 16:45 •1255次阅读

Stability AI试图通过新的图像生成人工智能模型保持领先地位

Stability AI的最新图像生成模型Stable Cascade承诺比其业界领先的前身Stable Diffusion更快、更强大，而Stable Diffusion是许多其他文本到图像

发表于 02-19 16:03 •934次阅读

谷歌推出AI扩散模型Lumiere

近日，谷歌研究院重磅推出全新AI扩散模型Lumiere，这款模型基于谷歌自主研发的“Space-Time U-Net”基础架构，旨在实现视频生成的一次性完成，同时保证视频的真实性和动作

发表于 02-04 13:49 •1028次阅读

Adobe提出DMV3D：3D生成只需30秒！让文本、图像都动起来的新方法！

因此，本文研究者的目标是实现快速、逼真和通用的 3D 生成。为此，他们提出了 DMV3D。DMV3D 是一种全新的单阶段的全类别扩散模型，能直接根据模型文字或单张图片的输入，

发表于 01-30 16:20 •850次阅读

谷歌推出能一次生成完整视频的扩散模型

该公司指出，当前众多文生视频模型普遍存在无法生成长时、高品质及动作连贯的问题。这些模型往往采用“分段生成视频”策略，即先生成少量关键帧，再借

发表于 01-29 11:14 •533次阅读

基于DiAD扩散模型的多类异常检测工作

现有的基于计算机视觉的工业异常检测技术包括基于特征的、基于重构的和基于合成的技术。最近，扩散模型因其强大的生成能力而闻名，因此本文作者希望通过扩散模

发表于 01-08 14:55 •1379次阅读

搜索历史

新晋图像生成王者扩散模型

评论

浙大、微信提出精确反演采样器新范式，彻底解决扩散模型反演问题

扩散模型的理论基础

Meta发布Imagine Yourself AI模型，重塑个性化图像生成未来

如何用C++创建简单的生成式AI模型

Runway发布Gen-3 Alpha视频生成模型

南开大学和字节跳动联合开发一款StoryDiffusion模型

KOALA人工智能图像生成模型问世

韩国科研团队发布新型AI图像生成模型KOALA，大幅优化硬件需求

谷歌Gemini AI模型因人物图像生成问题暂停运行

openai发布首个视频生成模型sora

Stability AI试图通过新的图像生成人工智能模型保持领先地位

谷歌推出AI扩散模型Lumiere

Adobe提出DMV3D：3D生成只需30秒！让文本、图像都动起来的新方法！

谷歌推出能一次生成完整视频的扩散模型

基于DiAD扩散模型的多类异常检测工作