1 基于预训练视觉-语言模型的跨模态Prompt-Tuning-德赢Vwin官网网

搜索历史

清空

搜索热词

0

聊天消息
系统消息
评论与回复

查看更多

查看更多

查看更多

VIP于到期续费

登录后你可以

下载海量资料
学习在线课程
观看技术视频
写文章/发帖/加入社区

会员中心

创作中心

发布

创作活动

完善资料让更多小伙伴认识你，还能领取20积分哦，立即完善>

3天内不再提示

基于预训练视觉-语言模型的跨模态Prompt-Tuning

论文：CPT：Colorful Prompt Tuning for Pre-Training Vision-Language Models

状态：Work in Progress

单位：清华大学、新加坡国立大学

链接：https://arxiv.org/pdf/2109.11797.pdf

提取摘要

预训练的视觉语言模型（VL-PTMs）在将自然语言融入图像数据中显示出有前景的能力，促进了各种跨模态任务。

然而，作者注意到模型pre-training和finetune的客观形式之间存在显着差距，导致需要大量标记数据来刺激 VL-PTMs 对下游任务的视觉基础能力。

为了应对这一挑战，本文提出了跨模态提示调优Cross-modal Prompt Tuning（CPT，或者，彩色-Color提示调优），这是一种用于finetune VL-PTMs 的新范式，它在图像和文本中使用基于颜色的共同参照标记重新构建了视觉定位问题，使之成为一个填空问题，最大限度地缩小差距。

通过这种方式，本文的Prompt-Tuning方法可以让 VL-PTMs 在少样本甚至零样本的强大的视觉预测能力。

综合实验结果表明，Prompt-Tuning的 VL-PTMs 大大优于 finetune 的方法（例如，在 RefCOCO 评估中，一次平均提高 17.3% 准确度，one shot下平均相对标准偏差降低73.8%）。

数据和代码会在之后公开，小伙伴们不要急~

方法介绍

背景：该任务为Visual Grounding视觉定位问题，通过一个给定的expression来定位在图像中的位置。

Pre-training和fine-tuning

比如有一张识别好的图片和下面的文字：

普通使用MLM（masked language modeling）的预训练模型的到VL-PTMs方法为：

就是使用［mask］机制来预测被被掩盖的token。

而finetune的话，就是使用传统的［CLS］来迁就下游的任务，比如做二分类：

而使用被大规模数据预训练的模型通过［CLS］来迁就下游任务，其实并不可解释，而反过来让下游带着任务来到预训练模型的［mask］战场上，才能更能发挥其作用呀。

CPT： Cross-model Prompt Tuning

CPT方法首先将图片用不同颜色来区分不同的实体模块：

其次将Query Text插入到color-based的模板（eg. is in ［mask］ color）里：

最后在［mask］上预测对应的该是哪个颜色即可，语义上非常行得通。

模型公式

普通Finetune for VL-PLMs

首先从图片 I 中通过目标检测工具，检测出一系列的region：

最终这些被选出来的region和Query Text（w）将被放入：

其中［IMG］、［CLS］和［SEP］为特殊token。

其中图片regions的representation通过视觉的encoder获得，而文本的就是lookup即可，最后通过预训练模型VL-PLMs会得到：

最终使用隐层finetune做分类即可。

但是，finetuned VL-PLMs需要大量的标注数据来提高视觉定位的效果，这个也是一个弊端吧。

Cross-Modal Prompt Tuning - CPT

上面说过了，CPT需要两个部分：

视觉子prompt

文本子prompt

视觉子prompt，目的是为了区分每一个region通过可分辨的标记，比如颜色，比如RGB （255， 0， 0）表示red，RGB和text要对应起来。

这里要注意的是，这个子prompt是直接加在原图片上的，所以既没有改变模型结果，又没有改变参数。

文本子prompt，目的就是在图片和Query Text之间建立一个链接，这里使用的模板为：

然后，VL-PTMs模型通过这样的提示（prompt）来决定哪个颜色的region填在这个空里最恰当：

实验

和finetune相比，CPT在zero-shot和few-shot下，性能可以说是爆表，巨额提升。在全量数据下，也能达到最佳值或者接近最佳值：

CPT在其他视觉任务上的应用

实体检测

谓元分类

场景图分类

总之，Prompt方法就是通过模板重新定义了任务，让模型更具有解释性，本篇文章第一次将Prompt用在了Vision-Language上，未来还会有很大的研究动向，感兴趣的小伙伴可以细读原文。

编辑：jq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表德赢Vwin官网网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据

数据

+关注

关注
8

文章
7002

浏览量
88937
RGB

RGB

+关注

关注
4

文章
798

浏览量
58459
CLS

CLS

+关注

关注
0

文章
9

浏览量
9709
prompt

prompt

+关注

关注
0

文章
14

浏览量
2677

原文标题：清华刘知远提出CPT：基于预训练视觉-语言模型的跨模态Prompt-Tuning

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

评论

相关推荐

KerasHub统一、全面的预训练模型库

深度学习领域正在迅速发展，在处理各种类型的任务中，预训练模型变得越来越重要。Keras 以其用户友好型 API 和对易用性的重视而闻名，始终处于这一动向的前沿。Keras 拥有专用的内容库，如用

的头像

发表于 12-20 10:32 •59次阅读

什么是大模型、大模型是怎么训练出来的及大模型作用

，基础模型。大模型是一个简称，完整的叫法，应该是“人工智能预训练大模型”。预

的头像

发表于 11-25 09:29 •1175次阅读

什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>训练</b>出来的及大<b class='flag-5'>模型</b>作用

大语言模型的预训练

能力，逐渐成为NLP领域的研究热点。大语言模型的预训练是这一技术发展的关键步骤，它通过在海量无标签数据上进行训练，使

的头像

发表于 07-11 10:11 •417次阅读

LLM预训练的基本概念、基本原理和主要优势

在人工智能和自然语言处理（NLP）领域，大型语言模型（Large Language Model，简称LLM）的兴起极大地推动了技术的进步和应用的发展。LLM通过在大规模文本数据上进行预

的头像

发表于 07-10 11:03 •1061次阅读

预训练模型的基本原理和应用

预训练模型（Pre-trained Model）是深度学习和机器学习领域中的一个重要概念，尤其是在自然语言处理（NLP）和计算机视觉（CV）

的头像

发表于 07-03 18:20 •2754次阅读

大语言模型：原理与工程时间+小白初识大语言模型

种语言模型进行预训练，此处预训练为自然语言处理领域的

发表于 05-12 23:57

【大语言模型：原理与工程实践】大语言模型的应用

操作。所谓零样本提示（Zero-Shot Prompt），指的是在提示词中不包含与指令任务相似的任何示例。当大语言模型训练完成后，它便具备了分析情绪和识别命名实体等常见任务的能力，

发表于 05-07 17:21

【大语言模型：原理与工程实践】大语言模型的预训练

大语言模型的核心特点在于其庞大的参数量，这赋予了模型强大的学习容量，使其无需依赖微调即可适应各种下游任务，而更倾向于培养通用的处理能力。然而，随着学习容量的增加，对预

发表于 05-07 17:10

【大语言模型：原理与工程实践】大语言模型的基础技术

全面剖析大语言模型的核心技术与基础知识。首先，概述自然语言的基本表示，这是理解大语言模型技术的前提。接着，详细介绍自然

发表于 05-05 12:17

【大语言模型：原理与工程实践】核心技术综述

的复杂模式和长距离依赖关系。预训练策略: 预训练是LLMs训练过程的第一阶段，模型在大量的

发表于 05-05 10:56

【大语言模型：原理与工程实践】揭开大语言模型的面纱

Transformer架构，利用自注意力机制对文本进行编码，通过预训练、有监督微调和强化学习等阶段，不断提升性能，展现出强大的语言理解和生成能力。大语言

发表于 05-04 23:55

【大语言模型：原理与工程实践】探索《大语言模型原理与工程实践》

处理中预训练架构Transformer，以及这些技术在现实世界中的如何应用。通过具体案例的分析，作者展示了大语言模型在解决实际问题中的强大能力，同时也指出了当前技术面临的挑战和局限性。

发表于 04-30 15:35

字节发布机器人领域首个开源视觉-语言操作大模型，激发开源VLMs更大潜能

对此，ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作

的头像

发表于 01-23 16:02 •517次阅读

字节发布机器人领域首个开源<b class='flag-5'>视觉</b>-<b class='flag-5'>语言</b>操作大<b class='flag-5'>模型</b>，激发开源VLMs更大潜能

机器人基于开源的多模态语言视觉大模型

ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作

发表于 01-19 11:43 •406次阅读

机器人基于开源的多<b class='flag-5'>模态</b><b class='flag-5'>语言</b><b class='flag-5'>视觉</b>大<b class='flag-5'>模型</b>

大语言模型推断中的批处理效应

随着开源预训练大型语言模型（Large Language Model, LLM ）变得更加强大和开放，越来越多的开发者将大语言

的头像

发表于 01-04 12:32 •627次阅读

大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>推断中的批处理效应