GLIGEN在开放世界泛化方面的有效性-德赢Vwin官网网

CVPR 2023：GLIGEN: Open-Set Grounded Text-to-Image Generation

1. 论文信息

论文题目：GLIGEN: Open-Set Grounded Text-to-Image Generation

作者：Yuheng Li, Haotian Liu, Qingyang Wu, Fangzhou Mu, Jianwei Yang, Jianfeng Gao,Chunyuan Li, Yong Jae Lee

论文链接：https://arxiv.org/abs/2301.07093

代码地址：https://github.com/gligen/GLIGEN

2. 引言

首先介绍一下open-set Grounded Text2Img Generation，它是一个框架，它可以根据文本描述和定位指令生成图像。定位指令提供有关图像的附加信息，例如边界框、深度图、语义地图等。所提出的框架可以在不同类型的定位指令上进行训练，例如检测数据、检测+字幕数据和定位数据。该模型在COCO2014数据集上进行评估，同时在图像质量和定位准确性方面均取得了最先进的性能。本文的一个限制是，虽然到目前为止的描述集中于使用文本作为实体e和边界框作为l（本文的主要setting），但是提出的定位指导是以一般形式表示的。然而，提出的框架可以扩展到其他定位条件。

如何做到这些呢？近年来，图像生成研究取得了巨大进展。过去几年，GANs是最先进的技术，其latent space和conditional inputs已经得到了深入研究，以实现可控的修改和生成。文本条件自回归和扩散模型已经展示出惊人的图像质量和概念覆盖，这是由于它们更稳定的学习目标和基于网络图像-文本对数据的大规模训练所致。这些模型甚至引起了公众的关注，因为它们具有实用的用例（例如艺术设计和创作）。尽管取得了令人兴奋的进展，但现有的大规模文本到图像生成模型不能以除文本之外的其他输入模态为条件，因此缺乏精确定位概念、使用参考图像或其他条件输入来控制生成过程的能力。目前的输入，即仅限自然语言，限制了信息表达的方式。例如，使用文本描述一个物体的精确位置是困难的，而边界框/关键点可以很容易地实现这一点。虽然存在以其他输入模态进行修复、布局到图像生成等的条件扩散模型和GANs，但它们很少将这些输入组合起来进行可控的文本到图像生成。

此外，先前的生成模型（不论生成模型家族）通常是在每个任务特定的数据集上独立训练的。相比之下，在识别领域，长期以来的范例是以在大规模图像数据或图像-文本对上预训练的基础模型为起点构建识别模型。由于扩散模型已经在数十亿个图像-文本对上进行了训练，自然而然的问题是：我们能否在现有预训练的扩散模型基础上构建新的条件输入模态？通过这种方式，类似于识别文献，由于预训练模型已经具有丰富的概念知识，我们可能能够在其他生成任务上实现更好的性能，同时获得对现有文本到图像生成模型的更多可控性。

基于上述目标，我们提出了一种方法，为预训练的文本到图像扩散模型提供新的基础条件输入。我们仍然保留文本标题作为输入，但还启用其他输入模态，如边界框用于定位概念、引用图像用于定位、部分关键点定位等。关键挑战是在学习注入新的定位信息的同时保留预训练模型的原始丰富概念知识。为了防止知识遗忘，我们建议冻结原始模型权重，并添加新的可训练门控Transformer层，以接收新的定位输入（例如边界框）。在训练期间，我们逐渐使用门控机制将新的定位信息融合到预训练模型中。这种设计可在生成过程中实现灵活性，以提高质量和可控性；例如，我们展示了在前半部分采用全模型（所有层）进行采样步骤，而在后半部分仅使用原始层（不包括门控Transformer层）可以导致生成结果准确反映基础条件，同时具有高品质图像。

3. 方法

3.1 Grounding Instruction Input

定位指令输入是提供有关图像的信息的附加输入，例如边界框、深度图、语义地图等。该输入表示为一系列定位tokens，其中每个tokens对应于特定类型的定位信息。定位指令输入包括以下步骤：

从输入序列中提取定位tokens。

将每个tokens映射到其对应的定位信息。

对于每个使用边界框表示的定位文本实体，我们将位置信息表示为l = [αmin, βmin, αmax, βmax]，其中包含其左上角和右下角坐标。对于文本实体e，我们使用相同的预训练文本编码器来获取其文本特征ftext（e）（图2中的浅绿色标记），然后将其与其边界框信息融合以生成定位令tokens：

而keypoints相较于bounding box有什么特点呢？keypoints比bounding box的泛化能力要差，因为关键点表示物体的部分，在不同类别之间不能总是共享。另一方面，边界框仅指定图像中物体的粗略位置和大小，并可以跨所有对象类别共享。这意味着，虽然关键点比边界框提供了更细粒度的控制，但它们的泛化能力较差。本文的作者还提到，他们测试了人类学习的关键点定位信息是否可以转移到其他非人型类别，如猫或灯，用于关键点定位生成，但他们发现即使使用了计划采样，他们的模型在这些情况下也会遇到困难。

从Closed-set转换成Open-set：相较于open set的方法，现有的这种close-set环境下的布局到图像生成方法仅适用于封闭集设置，限制了模型推广到新实体的能力，也缺乏语言指令的语义结构。提出的定位指令采用通用形式，可以扩展到其他定位条件，例如图像提示、关键点和空间对齐条件。图像提示可以用于描述更抽象和精细的概念，而关键点和空间对齐条件则提供了更细粒度的可控性。而如图所示，采用了UNet的结构，其可以通过将条件映射输入到第一个卷积层中来加速。

3.2 Continual Learning for Grounded Generation

基于连续学习的定位生成是一种方法，使生成模型能够从新的定位信息中学习而不会忘记以前学习的信息。基于连续学习的定位生成的步骤包括：

在大型图像和captioning数据集上预训练生成模型。

在包含额外定位信息的较小图像和captioning数据集上fine-tuning模型。

使用回放缓冲区存储之前学习的信息，并在学习新的定位信息时使用它来防止遗忘。

使用连续学习方法训练模型，平衡学习新信息的重要性和保留以前学习的信息。

使用生成模型将文本描述与提取的定位信息相结合生成最终图像。

为了加快推理过程中的节奏，本文还提出了一种新的迭代模式，Scheduled Samplin。Scheduled Samplin是GLIGEN模型中使用的一种技术，通过设置一个称为beta的参数来安排推理时间的采样，其中beta可以设置为1（使用额外的定位信息）或0（降低到原始预训练扩散模型）。这允许模型在不同阶段利用不同的知识。通过将tau设置为0.2，可以使用计划采样来改善图像质量，并扩展模型以生成具有类似人形形状的其他对象。

计划采样的主要好处是提高了视觉效果的质量，因为粗略的概念位置和轮廓在早期阶段被确定，后续阶段则是细节的精细化处理。它还可以让我们将在一个领域（人类关键点）训练的模型扩展到其他领域（猴子卡通人物），如图1所示。

4. 实验

这段突出显示的文本呈现了表格1，该表格显示了在COCO2014验证集上图像质量和布局对应性的评估结果。表格中的数字来自相应的论文，是在COCO数据集上进行微调的模型。GLIGEN是建立在之上的模型。COCO2014数据集是文本到图像生成领域中使用的标准基准，用于在封闭集设置中评估模型的生成质量和定位准确性。评估不同类型的定位指令以查看它们对模型性能的影响。比较的指标就是Inception Score（IS）、Fréchet Inception Distance（FID）和Layout Distance Metric（LDM）这些常用的生成模型客观性评价指标。IS衡量生成图像的质量，FID衡量生成图像与真实图像的相似性，而LDM衡量生成的图像与给定布局的对应性。然后比较了使用COCO2014数据集的不同论文的结果，例如StackGAN++、AttnGAN和DM-GAN。这些论文对上述指标得分的表现不同。是在COCO数据集上进行微调的模型，它的得分比原始的LDM模型更好。GLIGEN是建立在L.DM之上的模型，它的得分比表格中提到的其他模型都要好。可见本文提出方法的有效性。

结合实验来看，本文提出的方法，在性能和泛化性上，都有特别出彩的点。

5. 讨论

本文的贡献在于提出了一种新的文本到图像生成方法GLIGEN，它赋予了现有的文本到图像扩散模型新的定位可控性。该模型使用边界框输入实现了开放世界的定位文本到图像生成，即合成训练中未观察到的新的局部概念。该模型在布局到图像任务的零样本表现显著优于之前的最新技术水平，展示了在大型预训练生成模型的基础上进行下游任务建模的强大能力。本文总结认为，GLIGEN是推进文本到图像合成领域和扩展预训练模型在各种应用中能力的有前途的方向。

本文的一个limitation是，所提出的GLIGEN模型需要大量的训练数据才能实现良好的性能。另一个限制是，模型的性能高度依赖于提供的定位信息的质量。此外，模型生成具有细节的图像的能力也受到限制。作者建议未来的工作重点应该放在改进模型处理复杂定位信息和生成更逼真、更详细图像的能力上。

6. 结论

GLIGEN是本文提出的一种方法，用于扩展预训练的文本到图像扩散模型的定位能力。该方法使用边界框、关键点、参考图像和空间对齐条件（例如边缘图、深度图等）来从文本描述生成图像。该模型使用多层感知机来提取定位信息，并将其与文本描述相结合生成最终图像。基于连续学习的定位生成被用于允许模型从新的定位信息中学习而不会忘记以前学习的信息。作者展示了GLIGEN在开放世界泛化方面的有效性，并表明它可以轻松扩展到其他定位条件。本文总结认为，GLIGEN是推进文本到图像合成领域和扩展预训练模型在各种应用中能力的有前途的方向。

审核编辑：彭静

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表德赢Vwin官网网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

LDM

LDM

+关注

关注
0

文章
6

浏览量
10647
模型

模型

+关注

关注
1

文章
3226

浏览量
48806
数据集

数据集

+关注

关注
4

文章
1208

浏览量
24688

原文标题：论文解读 Open-Set Grounded Text-to-Image Generation

文章出处：【微信号：GiantPandaCV，微信公众号：GiantPandaCV】欢迎添加关注！文章转载请注明出处。

1553B总线产品有效性测试（VTP）平台

MIL-STD-1553B标准，针对电气参数测试、协议兼容性测试、噪声抑制测试三大方面，制定了包括测试目的、连接结构、测试内容和通过准则等内容的测试细则，可有效而全面地解决1553B总线产品设计定型前

发表于 01-20 16:01

神奇的数据有效性的使用

数据有效性的使用

发表于 06-24 16:59

CS的有效性可以改编？

1. “如果SD卡在接收复位命令过程中CS低电平有效，则进入SPI模式，否则工作在SD 总线模式。”这个不太理解，CS的有效性可以改编吗，如何实现？2. 我的SD卡和LCD都是用SPI读写，我在读

发表于 05-21 06:50

ATPG有效性是什么意思

Automatic Test Pattern Generation(ATPG)ATPG有效性是衡量测试错误覆盖了的重要指标。测试是向一个处于已知状态的对象施加确定的输入激励，并测量其确定的输出响应

发表于 07-29 08:47

特征选择在减少预测推理时间方面的有效性展示

。特征选择是大多数机器学习管道中的一个重要步骤，主要用于提高性能。当减少特征时，就是降低了模型的复杂性，从而降低了训练和验证的时间。在这篇文章中，我们展示了特征选择在减少预测推理时间方面的有效

发表于 09-07 14:46

压缩机故障率的有效性估计和维修周期的确定

压缩机故障率的有效性估计和维修周期的确定

发表于 05-21 15:01 •19次下载

高斯混合模型对乳腺癌诊断的有效性初探

计算机辅助医疗诊断是计算机应用的一个热门方向。本文旨在探讨基于EM 算法的高斯混合模型在乳腺癌诊断方面的有效性。通过与现在流行的BP 神经网络辅助医疗诊断方法的比较

发表于 01-09 11:54 •24次下载

新的模糊聚类有效性指标

新的模糊聚类有效性指标_赵娜娜

发表于 01-07 20:32 •0次下载

如何检查Oracle数据库备份文件是否有效？备份文件有效性检测系统设计资料概述

从Oracle 数据库的备份文件是否有效的角度出发，针对企业往往只注重如何制定完善的生产数据备份设计方案，而忽视对备份数据有效性进行检测这一问题。依据备份检测原理并考虑实际生产环境，设计了

发表于 09-07 17:14 •5次下载

什么是欺诈证明和有效性证明

欺诈证明提出证据，表明状态转换是不正确的。它们反映了对世界的乐观看法：假设区块代表L2数据的正确状态，直到被证明不是这样。但实际上，一个已提交的区块可能包含错误的状态转换。 有效性证明则提出

发表于 01-28 10:46 •2564次阅读

PLC冗余系统的可行性和有效性分析

结合客户需求，通过热备硬件和软件冗余程序设计控制系统冗余方案。从热备硬件和冗余程序设计的角度分别分析了冗余系统的可靠性和系统主备站切换时间，实践证明冗余系统的可行性与有效性.

发表于 10-30 16:26 •10次下载

利用人工智能测试药物对新冠的治疗有效性

利用人工智能来测试药物对新冠的治疗有效性和安全性

发表于 11-29 09:34 •2153次阅读

Oracle数据库备份文件有效性检测设计方案

Oracle数据库备份文件有效性检测设计方案(电源技术投稿难度)-该文档为Oracle数据库备份文件有效性检测设计方案讲解文档，是一份不错的参考资料，感兴趣的可以下载看看，，，，，，，，，，，

发表于 09-24 16:58 •2次下载

合成数据的不合理有效性

德赢Vwin官网网站提供《合成数据的不合理有效性.zip》资料免费下载

发表于 07-13 09:29 •0次下载

adc采集的电压值数值如何真有效性转换？

adc采集的电压值数值如何真有效性转换？adc采集温度基准电压纹波太大有什么影响？ ADC采集的电压值数值真正的有效性转换，需要考虑多个因素。首先需要明确的是，ADC采集到的数字量表示的是一种电压值

发表于 10-17 18:17 •1488次阅读

搜索历史

GLIGEN在开放世界泛化方面的有效性

评论

1553B总线产品有效性测试（VTP）平台

神奇的数据有效性的使用

CS的有效性可以改编？

ATPG有效性是什么意思

特征选择在减少预测推理时间方面的有效性展示

压缩机故障率的有效性估计和维修周期的确定

高斯混合模型对乳腺癌诊断的有效性初探

新的模糊聚类有效性指标

如何检查Oracle数据库备份文件是否有效？备份文件有效性检测系统设计资料概述

什么是欺诈证明和有效性证明

PLC冗余系统的可行性和有效性分析

利用人工智能测试药物对新冠的治疗有效性

Oracle数据库备份文件有效性检测设计方案

合成数据的不合理有效性

adc采集的电压值数值如何真有效性转换？