一文理解多模态大语言模型—

作者：Sebastian Raschka 博士，

翻译：张晶，Linux Fundation APAC Open Source Evangelist

编者按：本文并不是逐字逐句翻译，而是以更有利于中文读者理解的目标，做了删减、重构和意译，并替换了多张不适合中文读者的示意图。

原文地址：https://magazine.sebastianraschka.com/p/understanding-multimodal-llms

《一文理解多模态大语言模型 - 上》介绍了什么是多模态大语言模型，以及构建多模态 LLM 有两种主要方式之一：统一嵌入解码器架构(Unified Embedding Decoder Architecture)。本文将接着介绍第二种构建多模态 LLM 的方式：跨模态注意架构(Cross-modality Attention Architecture approach)。

一，跨模态注意架构

《一文理解多模态大语言模型 - 上》讨论了通过统一嵌入解码器架构来构建多模态大语言模型（LLM）的方法，并且理解了图像编码背后的基本概念，下面介绍另一种通过交叉注意力机制实现多模态LLM的方式，如下图所示：

在上图所示的跨模态注意力架构方法中，我们仍然使用之前介绍的图像向量化方式。然而，与直接将图像向量作为LLM的输入不同，我们通过交叉注意力机制在多头注意力层中连接输入的图像向量。

这个想法与2017年《Attention Is All You Need》论文中提出的原始Transformer架构相似，在原始《Attention Is All You Need》论文中的Transformer最初是为语言翻译开发的。因此，它由一个文本编码器（下图的左部分）组成，该编码器接收要翻译的句子，并通过一个文本解码器（图的右部分）生成翻译结果。在多模态大语言模型的背景下，图的右部分的编码器由之前的文本编码器，更换为图像编码器(图像编码后的向量)。

文本和图像在进入大语言模型前都编码为嵌入维度和尺寸(embedding dimensions and size)一致的向量。

“我们可以把多模态大语言模型看成“翻译”文本和图像，或文本和其它模态数据 --- 译者。”

二，统一解码器和交叉注意力模型训练

与传统仅文本的大语言模型（LLM）的开发类似，多模态大语言模型的训练也包含两个阶段：预训练和指令微调。然而，与从零开始不同，多模态大语言模型的训练通常以一个预训练过且已经过指令微调的大语言模型作为基础模型。

对于图像编码器，通常使用CLIP，并且在整个训练过程中往往保持不变，尽管也存在例外，我们稍后会探讨这一点。在预训练阶段，保持大语言模型部分冻结也是常见的做法，只专注于训练投影器(Projector)——一个线性层或小型多层感知器。鉴于投影器的学习能力有限，通常只包含一两层，因此在多模态指令微调（第二阶段）期间，大语言模型通常会被解冻，以允许进行更全面的更新。然而，需要注意的是，在基于交叉注意力机制的模型（方法B）中，交叉注意力层在整个训练过程中都是解冻的。

在介绍了两种主要方法（方法A：统一嵌入解码器架构和方法B：跨模态注意力架构）之后，你可能会好奇哪种方法更有效。答案取决于具体的权衡：

统一嵌入解码器架构（方法A）通常更容易实现，因为它不需要对LLM架构本身进行任何修改。

跨模态注意力架构（方法B）通常被认为在计算上更高效，因为它不会通过额外的图像分词(Token)来过载输入上下文，而是在后续的交叉注意力层中引入这些标记。此外，如果在训练过程中保持大语言模型参数冻结，这种方法还能保持原始大语言模型的仅文本性能。

下图总结了常见多模态大语言模型使用的组件和技术：

三，总结

“多模态LLM可以通过多种不同的方式成功构建，核心思路在于把多模态数据编码为嵌入维度和尺寸一致的向量，使得原始大语言模型可以对多模态数据“理解并翻译”。--- 译者”。

如果你有更好的文章，欢迎投稿！

稿件接收邮箱：nami.liu@pasuntech.com

更多精彩内容请关注“算力魔方®”！

审核编辑黄宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表德赢Vwin官网网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

语言模型

语言模型

+关注

关注
0

文章
520

浏览量
10268
LLM

LLM

+关注

关注
0

文章
286

浏览量
327

一文理解多模态大语言模型——上

/understanding-multimodal-llms 在过去几个月中， OpenVINO™ 架构师 Yury阅读了众多有关多模态大语言模型的论文和博客，在此基础上，推荐了

发表于 12-02 18:29 •302次阅读

<b class='flag-5'>一</b><b class='flag-5'>文理解</b><b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>——上

如何利用LLM做多模态任务？

大型语言模型LLM（Large Language Model）具有很强的通用知识理解以及较强的逻辑推理能力，但其只能处理文本数据。虽然已经发布的GPT4具备图片理解能力，但目前还未开放

发表于 05-11 17:09 •901次阅读

如何利用LLM做<b class='flag-5'>多</b><b class='flag-5'>模态</b>任务？

邱锡鹏团队提出具有内生跨模态能力的SpeechGPT，为多模态LLM指明方向

大型语言模型（LLM）在各种自然语言处理任务上表现出惊人的能力。与此同时，多模态大型语言

发表于 05-22 14:38 •675次阅读

邱锡鹏团队提出具有内生跨<b class='flag-5'>模态</b>能力的SpeechGPT，为<b class='flag-5'>多</b><b class='flag-5'>模态</b>LLM指明方向

VisCPM：迈向多语言多模态大模型时代

随着 GPT-4 和 Stable Diffusion 等模型多模态能力的突飞猛进，多模态大模型

发表于 07-10 10:05 •707次阅读

VisCPM：迈向多<b class='flag-5'>语言</b><b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>时代

更强更通用：智源「悟道3.0」Emu多模态大模型开源，在多模态序列中「补全一切」

当前学界和工业界都对多模态大模型研究热情高涨。去年，谷歌的 Deepmind 发布了多模态视觉语言

发表于 07-16 20:45 •713次阅读

中科大&字节提出UniDoc：统一的面向文字场景的多模态大模型

如上图所示，UniDoc基于预训练的视觉大模型及大语言模型，将文字的检测、识别、spotting(图中未画出)、多模态

发表于 08-31 15:29 •1538次阅读

DreamLLM：多功能多模态大型语言模型，你的DreamLLM~

由于固有的模态缺口，如CLIP语义主要关注模态共享信息，往往忽略了可以增强多模态理解的模态特定知识。因此，这些研究并没有充分认识到

发表于 09-25 17:26 •733次阅读

探究编辑多模态大语言模型的可行性

不同于单模态模型编辑，多模态模型编辑需要考虑更多的模态信息。文章出发点依然从单

发表于 11-09 14:53 •502次阅读

自动驾驶和多模态大语言模型的发展历程

多模态大语言模型(MLLM) 最近引起了广泛的关注，其将 LLM 的推理能力与图像、视频和音频数据相结合，通过多模态对齐使它们能够更高效地执

发表于 12-28 11:45 •519次阅读

机器人基于开源的多模态语言视觉大模型

ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作

发表于 01-19 11:43 •406次阅读

韩国Kakao宣布开发多模态大语言模型“蜜蜂”

韩国互联网巨头Kakao最近宣布开发了一种名为“蜜蜂”(Honeybee)的多模态大型语言模型。这种创新

发表于 01-19 16:11 •679次阅读

李未可科技正式推出WAKE-AI多模态AI大模型

文本生成、语言理解、图像识别及视频生成等多模态交互能力。该大模型围绕 GPS 轨迹+视觉+语音打造新

发表于 04-18 17:01 •584次阅读

大语言模型(LLM)快速理解

自2022年，ChatGPT发布之后，大语言模型（LargeLanguageModel），简称LLM掀起了一波狂潮。作为学习理解LLM的开始，先来整体

发表于 06-04 08:27 •958次阅读

利用OpenVINO部署Qwen2多模态模型

多模态大模型的核心思想是将不同媒体数据（如文本、图像、音频和视频等）进行融合，通过学习不同模态之间的关联，实现更加智能化的信息处理。简单来说，多

发表于 10-18 09:39 •411次阅读

商汤日日新多模态大模型权威评测第一

刚刚，商汤科技日日新SenseNova多模态大模型，在权威综合评测权威平台OpenCompass的多模态评测中取得榜单第

发表于 12-20 10:39 •109次阅读