扩散模型在视频领域表现如何？-德赢Vwin官网网

扩散模型正在不断的「攻城略地」。

扩散模型并不是一个崭新的概念，早在2015年就已经被提出。其核心应用领域包括音频建模、语音合成、时间序列预测、降噪等。

那么它在视频领域表现如何？先前关于视频生成的工作通常采用诸如GAN、VAE、基于流的模型。

在视频生成领域，研究的一个重要里程碑是生成时间相干的高保真视频。来自谷歌的研究者通过提出一个视频生成扩散模型来实现这一里程碑，显示出非常有希望的初步结果。本文所提出的模型是标准图像扩散架构的自然扩展，它可以从图像和视频数据中进行联合训练，研究发现这可以减少小批量梯度的方差并加快优化速度。

为了生成更长和更高分辨率的视频，该研究引入了一种新的用于空间和时间视频扩展的条件采样技术，该技术比以前提出的方法表现更好。

论文地址：https://arxiv.org/pdf/2204.03458.pdf

论文主页：https://video-diffusion.github.io/

研究展示了文本条件视频生成的结果和无条件视频生成基准的最新结果。例如生成五彩斑斓的烟花：

其他生成结果展示：

这项研究有哪些亮点呢？首先谷歌展示了使用扩散模型生成视频的首个结果，包括无条件和有条件设置。先前关于视频生成的工作通常采用其他类型的生成模型，如 GAN、VAE、基于流的模型和自回归模型。

其次该研究表明，可以通过高斯扩散模型的标准公式来生成高质量的视频，除了直接的架构更改以适应深度学习加速器的内存限制外，几乎不需要其他修改。该研究训练生成固定数量的视频帧块的模型，并且为了生成比该帧数更长的视频，他们还展示了如何重新调整训练模型的用途，使其充当对帧进行块自回归的模型。

方法介绍

图像扩散模型中的标准架构是U-Net，它是一种被构造为空间下采样通道的神经网络架构，空间上采样通道紧随其后，其中残差连接到下采样通道激活。这种神经网络由2D卷积残差块的层构建而成，并且每个这种卷积块的后面是空间注意力块。

研究者建议将这一图像扩散模型架构扩展至视频数据，给定了固定数量帧的块，并且使用了在空间和时间上分解的特定类型的 3D U-Net。

首先，研究者通过将每个 2D卷积改成space-only 3D卷积对图像模型架构进行修改，比如将每个3x3卷积改成了1x3x3卷积，即第一个轴（axis）索引视频帧，第二和第三个索引空间高度和宽度。每个空间注意力块中的注意力仍然为空间上的注意力，也即第一个轴被视为批处理轴（batch axis）。

其次，在每个空间注意力块之后，研究者插入一个时间注意力块，它在第一个轴上执行注意力并将空间轴视为批处理轴。他们在每个时间注意力块中使用相对位置嵌入，如此网络不需要绝对视频时间概念即可区分帧的顺序。3D U-Net 的模型架构可视图如下所示。

我们都知道，得益于分解时空注意力的计算效率，在视频transformers中使用它是一个很好的选择。研究者使用的分解时空架构是自身视频生成设置独有的，它的一大优势是可以直接 mask 模型以在独立图像而非视频上运行，其中只需删除每个时间注意力块内部的注意力操作并修复注意力矩阵以在每个视频时间步精确匹配每个键和问询向量。

这样做的好处是允许联合训练视频和图像生成的模型。研究者在实验中发现，这种联合训练对样本质量非常重要。

新颖的条件生成梯度方法

研究者的主要创新是设计了一种新的、用于无条件扩散模型的条件生成方法，称之为梯度方法，它修改了模型的采样过程以使用基于梯度的优化来改进去噪数据上的条件损失。他们发现，梯度方法比现有方法更能确保生成样本与条件信息的一致性。

研究者使用该梯度方法将自己的模型自回归地扩展至更多的时间步和更高的分辨率。

下图左为利用梯度方法的视频帧，图右为利用自回归扩展基线替代（replacement）方法的帧。可以看到，使用梯度方法采用的视频比基线方法具有更好的时间相干性。

实验结果

研究者对无条件、文本-条件视频生成模型进行了评估。文本-条件视频生成是在一个包含 1000 万个字幕视频数据集上进行训练，视频空间分辨率为 64x64 ；对于无条件视频生成，该研究在现有基准 [36] 上训练和评估模型。

无条件视频建模该研究使用 Soomro 等人[36]提出的基准对无条件视频生成模型进行评估。表 1 展示了该研究所提模型生成的视频的感知质量得分，并与文献中的方法进行了比较，发现本文方法大大提高了SOTA。

视频、图像模型联合训练：表 2 报告了针对文本-条件的 16x64x64 视频的实验结果。

无分类器指导的效果：表3 表明无分类器指导 [13] 在文本-视频生成方面的有效性。正如预期的那样，随着指导权重的增加，类 Inception Score 的指标有明显的改进，而类 FID 的指标随着引导权重的增加先改善然后下降。

表 3 报告的结果验证了无分类器指导 [13] 在文本-视频生成方面的有效性。正如预期的那样，随着引导权重的增加，类 Inception Score （IS）的指标有明显的改进，而类 FID 的指标随着引导权重的增加先改善然后下降。这一现象在文本-图像生成方面也有类似的发现[23]。

图 3 显示了无分类器指导 [13] 对文本-条件视频模型的影响。与在文本条件图像生成 [23] 和类条件图像生成 [13, 11] 上使用无分类器指导的其他工作中观察到的类似，添加指导提高了每个图像的样本保真度。

针对较长序列的自回归视频扩展：3.1节提出了基于扩散模型的条件采样梯度法，这是对[35]中替换方法的改进。表4展示了使用这两种技术生成较长视频的结果，由结果可得本文提出的方法在感知质量分数方面确实优于替换方法。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表德赢Vwin官网网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

视频

视频

+关注

关注
6

文章
1942

浏览量
72883
GaN

GaN

+关注

关注
19

文章
1933

浏览量
73280
模型

模型

+关注

关注
1

文章
3226

浏览量
48806

原文标题：视频生成无需GAN、VAE，谷歌用扩散模型联合训练视频、图像，实现新SOTA

文章出处：【微信号：vision263com，微信公众号：新机器视觉】欢迎添加关注！文章转载请注明出处。

【「大模型启示录」阅读体验】如何在客服领域应用大模型

在客服领域是大模型落地场景中最多的，也是最容易实现的。本身客服领域的特点就是问答形式，大模型接入难度低。今天跟随《大

发表于 12-17 16:53

浙大、微信提出精确反演采样器新范式，彻底解决扩散模型反演问题

随着扩散生成模型的发展，人工智能步入了属于 AIGC 的新纪元。扩散生成模型可以对初始高斯噪声进行逐步去噪而得到高质量的采样。当前，许多应用都涉及扩

发表于 11-27 09:21 •160次阅读

扩散模型的理论基础

扩散模型的迅速崛起是过去几年机器学习领域最大的发展之一。在这本简单易懂的指南中，学习你需要知道的关于扩散模型的一切。

发表于 10-28 09:30 •311次阅读

智源研究院揭晓大模型测评结果，豆包与百川智能大模型表现优异

在多模态理解图文问答任务中，开源和闭源模型表现相当，而国产模型则表现出色。此外，在中文语境下的文

发表于 05-20 09:26 •724次阅读

大模型在端侧迅速落地，面临哪些挑战

德赢Vwin官网网报道（文/李弯弯）大模型技术正在快速发展，并在不同领域取得显著进展。如在设计领域，近日消息，腾讯混元大模型文生图已经深度应用在B端和C端，此外，腾讯混元大

发表于 05-15 01:16 •2930次阅读

【大语言模型：原理与工程实践】大语言模型的评测

安全性的评测则关注模型在强化学习阶段的表现。行业模型的评测则针对特定行业的能力，如金融和法律等领域。整体能力的评测从宏观角度评估

发表于 05-07 17:12

【大语言模型：原理与工程实践】揭开大语言模型的面纱

。这一过程的不断迭代使大语言模型的语言理解和生成能力逐步提升。大语言模型在自然语言处理领域应用广泛，尤其在问答系统和机器翻译方面。它能理解用

发表于 05-04 23:55

OpenAI 在 AI 生成视频领域扔出一枚“王炸”，视频生成模型“Sora”

ABSTRACT摘要2月16日凌晨，也就是中国大年初七，OpenAI在AI生成视频领域扔出一枚“王炸”，宣布推出全新的生成式人工智能模型“Sora”。这家旧金山公司周四推出的该工具使用

发表于 02-22 08:25 •384次阅读

OpenAI发布人工智能文生视频大模型Sora

近日，人工智能领域的领军企业OpenAI宣布推出其最新的人工智能文生视频大模型——Sora。这款模型在继承DALL-E 3卓越画质和遵循指令

发表于 02-20 13:54 •856次阅读

OpenAI发布文生视频模型Sora，开启AI内容创作新纪元

近日，人工智能领域的领军企业OpenAI在其官网上正式发布了名为Sora的文生视频大模型。这款模型具备根据用户提示生成长达一分钟视频的能力，

发表于 02-20 13:44 •654次阅读

OpenAI发布文生视频模型Sora，引领AI视频生成新纪元

在人工智能(AI)领域掀起新一轮革命浪潮的，正是OpenAI最新推出的文生视频大模型——Sora。这款被业界广泛赞誉的模型，以其“逼真”和“

发表于 02-19 11:03 •938次阅读

奥特曼发布王炸模型Sora OpenAI首个文生视频模型Sora正式亮相

;可以说是王炸级的文生视频大模型。目前Sora模型正面向部分成员开放，以评估关键领域的潜在危害或风险。 Sora是一种扩散

发表于 02-18 17:41 •979次阅读

谷歌推出AI扩散模型Lumiere

近日，谷歌研究院重磅推出全新AI扩散模型Lumiere，这款模型基于谷歌自主研发的“Space-Time U-Net”基础架构，旨在实现视频生成的一次性完成，同时保证

发表于 02-04 13:49 •1028次阅读

谷歌推出能一次生成完整视频的扩散模型

该公司指出，当前众多文生视频模型普遍存在无法生成长时、高品质及动作连贯的问题。这些模型往往采用“分段生成视频”策略，即先生成少量关键帧，再借助时间超级分辨率（TSM）技术生成其间的

发表于 01-29 11:14 •533次阅读

基于DiAD扩散模型的多类异常检测工作

现有的基于计算机视觉的工业异常检测技术包括基于特征的、基于重构的和基于合成的技术。最近，扩散模型因其强大的生成能力而闻名，因此本文作者希望通过扩散模型将异常区域重构成正常。

发表于 01-08 14:55 •1379次阅读

搜索历史

扩散模型在视频领域表现如何？

评论

【「大模型启示录」阅读体验】如何在客服领域应用大模型

浙大、微信提出精确反演采样器新范式，彻底解决扩散模型反演问题

扩散模型的理论基础

智源研究院揭晓大模型测评结果，豆包与百川智能大模型表现优异

大模型在端侧迅速落地，面临哪些挑战

【大语言模型：原理与工程实践】大语言模型的评测

【大语言模型：原理与工程实践】揭开大语言模型的面纱

OpenAI 在 AI 生成视频领域扔出一枚“王炸”，视频生成模型“Sora”

OpenAI发布人工智能文生视频大模型Sora

OpenAI发布文生视频模型Sora，开启AI内容创作新纪元

OpenAI发布文生视频模型Sora，引领AI视频生成新纪元

奥特曼发布王炸模型Sora OpenAI首个文生视频模型Sora正式亮相

谷歌推出AI扩散模型Lumiere

谷歌推出能一次生成完整视频的扩散模型

基于DiAD扩散模型的多类异常检测工作