UniVL-DR: 多模态稠密向量检索模型

智能感知与物联网技术研究所 2023-08-06 821

描述

论文标题：

Universal Vision-Language Dense Retrieval: Learning A Unified Representation Space for Multi-Modal Retrieval

背景介绍 尽管当前主流搜索引擎主要面向文本数据，然而多媒体内容的增长一直是互联网上最显着趋势之一，各种研究表明用户更喜欢搜索结果中出现生动的多模态内容。因而，针对于多模态数据的信息获取需求在用户搜索过程中尤为重要。物联网

▲ 图1. 不同多模态检索框架示意图

为了实现多模态检索过程，当前的多媒体搜索系统通常采用“分而治之”的方法。如图 1(a) 所示，这些方法首先在单个模态中进行搜索，包括文本、图像、视频等，然后将各个模态的检索结果融合在一起，例如，在这些单/交叉模态检索器之上构建另一个排序模块来进行模态融合。

显而易见，相关性建模（Relevance Modeling）和检索结果融合（Retrieval Result Fusion）二者的建模过程通常交织在一起，以实现更准确的多模态检索结果。然而，由于模态差距，这类模型只能以分而治之的方式进行流水线建模，这使得融合来自不同模态的检索结果具有挑战性。

在本文中，我们提出端到端多模态检索模型，通过用户查询对多模态文档进行统一的检索。如图 1(b) 所示，通用多模态检索 将查询和多模态文档映射到一个统一的嵌入空间 ，并通过最近邻搜索检索多模态候选结果。最终， 本文将相关性建模（Relevance Modeling）、跨模态匹配（Cross-Modality Matching）和检索结果融合（Retrieval Result Fusion）进行统一的建模。

多模态检索任务介绍

物联网

▲ 图2. 不同检索任务示意图

单模态检索（Single Modality Retrieval）。如图 2（a）所示，单模态检索侧重于在一个模态空间内进行相关性检索，包括文本-文本检索和图像-图像检索。文本-文本检索旨在从文本集合中检索出与查询相关的文本文档；而图像-图像检索期望于从图像集合中检索出与给定查询图像匹配度较高的图像。

跨模态检索（Cross Modality Retrieval）。如图 2（b）所示，该检索场景包含两个子任务：文本-图像检索，图像-文本检索。这两种任务要求检索模型在图像与图像对应的描述文字之间进行跨模态匹配，

例如，在图像-文本检索任务中，对于给定的图像，检索模型需要在给定的图像描述文本集合中检索出与之匹配的描述文本。这种跨模态检索场景中的任务更加侧重于文本与图像之间的跨模态语义信息匹配，不同于信息检索中的相似度搜索，这种跨模态匹配更加注重“浅层”的语义匹配，对于深层的文档理解能力要求不高。

多模态检索（Multi-Modal Retrieval）。如图 2（c）所示，该检索场景旨在包含多模态文档的数据集合中检索相关文档。在多模态检索场景下，检索模型需要同时处理查询与不同模态文档之间的相似度计算，例如，对于给定的查询，检索模型需要在给定的文档集合中检索出相似文档。

不同于单模态检索和跨模态检索，多模态检索的目的是从多模态文档集合中检索、返回相关文档。根据用户的查询，检索结果可能由文本文档、图像文档或文本文档与图像文档的混合序列组成。多模态检索更加关注查询和文档之间的关联建模，且检索过程中涉及查询与文本文档的单模态匹配、查询与图像文档的跨模态匹配以及不同模态文档与查询的相似度之间的比较，这使得这项任务具有更大的挑战性。

UniVL-DR：基于统一表征空间的多模态稠密向量检索框架

物联网

▲ 图3. UniVL-DR模型结构图

在多模态信息检索场景下，本文提出了 Universal Vision-Language Dense Retrieval (UniVL-DR) 模型来建模多模态检索过程。如图 3 所示，对于给定用户查询和多模态文档，UniVL-DR 将用户查询、文本文档和图像文档编码在一个统一的向量表征空间中，并在该表征空间中进行用户查询与相关文档的相关性建模以及多模态文档向量表征建模。

UniVL-DR 由两个编码器构成：文本编码器和图像编码器。查询、图像文档和文本文档均通过这两个编码器编码得到稠密向量表示。

查询编码： 如公式（1）所示，本文算法直接通过文本编码器对查询进行编码，得到查询的表征向量：

物联网

文本文档编码： 如公式（2）所示，对于文本文档，本文算法将其经过文本编码器得到文本文档的稠密表征向量：

物联网

图像文档编码： 与文本文档不同，图像文档可以通过图像特征和图像描述表示，并且图像的文本描述可以帮助模型更好地理解图像文档的语义。因此，如公式（3）所示，本文对图像和图像的文本描述进行编码，得到编码后的向量，再对这些向量进行求和得到第 i 个图像文档的稠密表征向量：

物联网

图像文档的稠密表征向量和文本文档的稠密表征向量使用相同的文本编码器进行编码，这种处理方式在文本空间中架起了两种模态文档间的桥梁，为多模态检索建立了一个统一的以语言为中心的稠密向量表征空间。在检索时，由公式（4）所示，本算法通过计算查询与候选文档的余弦相似度得分来评估查询与该文档之间的相似度：

物联网

在训练过程中，本文采用模态均衡化的难负例选取策略，有效地构建多模态文档表征空间并进行优化，避免了在多模态数据共同训练过程中对某一模态信息的过拟合。具体来说，由公式（5）所示，对于给定查询及候选文档，本文通过对不同模态的难负例进行采样并最小化对比学习损失来优化表征向量空间。这使得查询表征向量的空间分布更接近相关文档而远离不相关文档。 K1 和 K2 分别代表图像文档负例的数量和文本文档负例的数量，如果训练过程中，K1 与 K2 不相等，那么模型很可能学习到偏差较大的分布空间，例如，若 K1偏差的问题。，训练时，查询的表征分布将偏向于文本文档的表征域，以此来获得较低的损失值。这种情况会造成模型训练时对某个模态过拟合，从而导致检索中仅关注某一模态的文档，造成模态<> 为了避免这种模态过拟合的问题， 本文使用模态均衡化的难负例选择策略，即训练过程中始终保持 K1=K2=K，从而构建更加均衡、稳定的多模态表征空间。

物联网

为解决图像文档与文本文档在表征上的模态屏障，本文提出通过图像的语言化拓展来弥合不同模态文档间表征鸿沟的方法。

▲ 图4. 图像的语言拓展算法示意图

本文借鉴信息检索领域中的文档拓展技术对图像进行语言化拓展，增强图像的语义表示。如图（4）所示，首先对图像进行目标检测，得到图像的区域特征和检测出的区域文本标签集合。本文首先将由图像和目标检测得到的区域标签生成图像描述形式的语言化拓展，输入结构如公式（6）所示：

物联网

其次将由图像文档生成与图像对应的查询形式的语言化拓展，输入结构如公式（7）所示：

物联网

最后，如公式（8）所示本文将生成的图像语言化拓展与图像原始的文本描述拼接作为图像文档中文本部分的新表示。新的文本表示具有更强的语义信息，可以帮助图像文档更好地适配语言信息的表征空间。物联网

实验结果

实验结果如表 2 所示。UniVL-DR 在性能评估上比所有基线模型提高了 7% 以上，显著的检索性能提升说明了本文算法在构建面向多模态文档的信息检索系统方面的有效性。相比较分而治之的策略，UniVL-DR 甚至超过了 BM25&CLIP-DPR（Oracle Modality）模型，该模型利用了数据集中标注的与用户问题相关的文档模态信息进行模态路由。证明统一化的多模态文档向量建模能够很好地建模多模态检索任务。

物联网

▲ 表2. 主实验结果

如表 3 所示，本文展示了模型的消融试验结果。在实验中我们发现针对于多模态检索任务，图像文档的标题信息相比较像素信息更加重要。同时，在图像文档标题信息的基础上加入图像像素信息能够进一步提升检索的效果。

物联网

▲ 表3. 消融实验结果

如图 5 所示，在用户问题中，往往会出现与图片所描述内容相关的实体，例如：明尼通卡杜鹃花（Minnetonka Rhododendron flower），然而，现有的图片编码器（例如：CLIP）往往缺少此类的背景知识，因而导致在多模态检索过程中图像文本的像素编码向量的作用不大。此原因导致了在多模态检索过程中图片像素的语义信息对检索精度的提升贡献不大的现象。

▲ 图5. 图片检索样例

进一步我们通过不同负例选取方式训练得到的多模态检索模型的向量空间可视化，如图 6 所示。我们的实验结果发现，通过模态平衡难负例训练的检索模型学习的向量空间更加的均匀。同时，通过对难负例的模态进行平衡可以很好地缓解检索模型对于模态的偏见问题。

物联网

▲图6. 稠密向量可视化

总结本文提出了 UniVL-DR，UniVL-DR 构建了统一的多模态向量表征空间，将单模态、跨模态匹配和检索结果融合建模在一起，实现端到端的多模态信息检索。具体来讲，本文的主要贡献有以下两点：1）通过模态均衡的难负例选取策略进行统一多模态表征空间的对比优化。2）利用图像语言化方法弥合了原始数据空间中图像和文本之间的模态差距。实验表明，UniVL-DR 可以通过图像语言化技术弥合模态差距，并通过模态均衡的难负例选取策略避免过度拟合某一种模态的训练监督信号。·

原文标题：UniVL-DR: 多模态稠密向量检索模型

文章出处：【微信公众号：智能感知与物联网技术研究所】欢迎添加关注！文章转载请注明出处。

打开APP阅读更多精彩内容