夕小瑶科技说 原创
作者 | 谢年年
多模态大模型的发展势头正猛,研究者们热衷于通过微调模型,打造出具有更高输入分辨率、更复杂功能、更强感知能力以及更精细粒度的模型。
但是,当我们深究这些模型时,不禁要问:这些多模态大模型的内部机制是如何运作的?它们是如何凭借系统token、图像token、用户Token这些复杂的输入,推导出准确的答案呢?
由于大模型固有的黑盒特性,再加上多模态的输入输出和复杂深层次的结构,理解MLLMs的内部机制变得异常困难。
知其然更要知其所以然,为了揭开这一谜团,上海交通大学与阿里巴巴的研究团队最近引入了一种信息流方法,来可视化图像和文本在复杂推理任务中的交互过程。这种方法利用注意力得分和Grad-CAM技术量化图像、用户和系统token对答案token的影响程度,展示了信息流的动态变化,并发现了一些非常有趣的现象。
下图展示了在多模态大模型不同层中token信息流的注意力得分。从左到右依次是系统token、图像token和用户token,他们的信息流向输出token汇聚。
可以发现,在浅层与深层中不同token信息流汇聚情况有所区别。在深层(12-32),系统token和用户token的信息流汇聚更为明显。但令人惊讶的是,图像token的汇聚则相对较弱,甚至对输出token没有什么贡献。
这到底是怎么回事,让我们一起去一探究竟。
论文标题:
From Redundancy to Relevance: Enhancing Explainability in Multimodal Large Language Models
论文链接:
https://arxiv.org/pdf/2406.06579
为了观察信息流的动态变化,作者利用注意力得分和Grad-CAM有效地表示动态变化。注意力得分通过前向传播突出显示相关区域,而Grad-CAM通过反向传播捕捉梯度变化,揭示图像特征的显著性。这两种方法互补,既能评估输入的重要性,又能清晰展现其对模型预测的具体影响,提供了一种全面理解信息流动态的方式。
大模型复杂推理本质上仍然是一个文本生成任务,生成的响应是由每个单词的分类结果组成的句子,即将所有单个单词的CLS logits加在一起,网络输出n个token的概率,记为,使用Grad-CAM将模型的输出答案可视化:
为了获取模型的整体输出的 logits,计算偏导数:图像编码器或者LLM解码器的最后一层的所有注意力映射Ak求解,其中Ak表示第n通道的特征图在坐标点的特征,以及由此产生的导数特征映射G。Reshape操作将序列输入转换为一个H × W的二维形状。将α权重向量与特征图A的相应通道相乘,计算得到一个二维激活映射:
Grad-CAM可以可视化任何激活特征图,其最后一层的特征图蕴含丰富的高层语义信息和详细的空间信息。
基于以上的计算方法,本文利用Grad-CAM可视化来理解CLIP-ViT在图像编码器中的决策过程。
以下图为例,研究与答案Token(如(B)蘑菇)对应的图像Token,关注模型的最后一层(即最后层归一化后的特征)进行梯度反向传播,捕捉决策机制的精细动态,并可视化模型在预测答案选项(如A、B、C、D)时依赖的图像区域。
从上图可以看到,CLIP-ViT模型的浅层捕获了通用图像特征和广泛的兴趣区域,而深层则专注于提供预测答案的关键视觉线索。注意力集中在图像的特定区域,特征图尤其突出了有效回答问题的图像区域(如蘑菇的伞面和柄部),凸显了深层对于输出token的重要性,并且信息流主要在此处聚合。另外,由于图像编码器并不直接处理文本,因此其特征保持了丰富的信息,对答案的生成提供帮助。
CLIP-ViT的丰富特征被传递给LLM解码器,由LLM解码器与文本交互。使用Grad-CAM来可视化后如下图所示:
可以看到:
浅层(1-11层)对于图像内容有显著的响应,与提示选项相关的图像区域高亮显示。这些层可以视为图像-文本语义交互层,模型在理解提示中的上下文、问题和选项后,能过滤并专注于与提示相关的图像内容。这种信息流的收敛模式与人类根据问题聚焦图像中相关信息以给出答案的方式非常相似。
深层(12-32层)的信息流表现较为分散,与文本关联的图像信息流的聚合变得不那么明显。这些深层可能依赖于浅层收集的信息,并结合LLM的知识,降低了对图像直接关注的依赖。
综上所述,CLIP-ViT模型在面临复杂推理时,浅层主要负责图像与文本的语义交互和信息流的收敛,而深层则侧重于知识推理,其信息流并不显著收敛。
通过注意力分数计算来衡量浅层显著特征,可以更好的理解模型的选择和加权机制,阐明它们在最终输出中的作用。将所有输出Tokens的注意力分数称为影响力率,用w表示,对不同类型的输入token进行聚合。
比如对于ScienceQA这样的复杂推理任务,其输出Tokens涵盖了代表系统、图像和用户Tokens的三个部分:
其中 表示系统Tokens的索引,Nsys表示系统Tokens的长度;
I表示图像Tokens的索引;
𝑈={𝑁𝑠𝑦𝑠+𝑁𝑖𝑚𝑔+1,...,𝑁𝑠𝑦𝑠+𝑁𝑖𝑚𝑔+𝑁𝑢𝑠𝑒𝑟}
U表示用户Tokens的索引,Aij定义为输出Tokens对不同类型Tokens的总注意力分数。对于第i个查询token,系统、图像和用户Tokens的注意力之和为 1,为了确保每个Token的注意力分数之和为1,对求和结果进行了归一化:
从下图(b)可以看出,图像Tokens占据了大部分输入Tokens,但它们得到的关注度却很低。相反,提供最少语义信息的系统提示获得了最多的注意力分数,大量的图像信息被聚合到系统和用户Tokens中,导致多模态大语言模型的视觉注意力极其低。另外图像Tokens对推理token的影响之和几乎为零;这客观地证明了在更深的层次中存在着信息流。
在以上的可视化分析中,可以看到图像LLM在浅层中显示出聚合信息流。同时,LLM主要关注与提示相关的图像区域和浅层交互中不相关的区域。
作者猜测大量的特征被传递给LLM包括一些无关冗余的噪声特征,这可能会分散模型的注意力,对复杂的推理任务不利。
为了探索冗余现象,本文设计了截断策略。如下图所示,对注意力分数进行排序,选择前K个图像LLM进行传递,通过关注这些关键LLM简化了推理过程。
本文探讨了不同层数下不同K值(0, 72, 128, 244, 432)的注意力分数截断策略,整体结果如下图所示:
当layer=1, k=0时,没有图像token传递给LLM,但LLM的准确率仍能达到47.5%。这表明在某些情况下,LLM仅依靠文本知识就能通过常识回答问题,如下图中询问“内布拉斯加州的首都是什么?”因此,当LLM的知识可以直接回答问题时,并不依赖于图形信息。
在layer=1, k=432时,准确率相比基线提升了0.6个百分点。这说明通过Clip-ViT传递的图像特征对LLM来说是多余的,因为Clip-ViT在精细识别方面的能力有限,图像编码压缩后未能保留有益特征,反而引入了冗余和干扰。
当layer>=12时,即使没有图像token,准确率仍保持在65.00%。这表明图像token对模型性能的影响很小。这再次支持本文的假设,即深层没有图像和文本的交互信息流。
总结来说, 截断实验再次验证了本文的两个结论:
在处理复杂推理任务时,浅层 (1-11层)存在图像和文本的交互,而深层没有图像和文本的交互信息流。
在浅层,图像特征存在部分冗余,而本文提出的截断实验有助于去除部分冗余特征。
作者还对Qwen-VL和LLaVA1.5应用了截断技术,并将其与其他CoT方法进行了比较:
截断策略在Qwen-VL和LLaVA1.5中都表现出有效性,进一步强调了浅层图像token的重要性。这表明,MLLMs可能更擅长在浅层捕获输入数据的特定模式或结构,而在深层依赖LLMs固有的知识进行推理。
本文运用Grad-CAM方法对MLLMs的复杂推理过程进行了逐层可视化研究,深入探究了图像与用户提示之间的交互和信息流动,得出了一些有趣的结论:如LLaVA1.5和Qwen-vl等模型中,浅层图像Token的信息流存在明显冗余。MLLMs可能在浅层捕获输入的含义而在深层进行推理获得答案等。相信该研究有助于人们更好地理解多模态复杂推理的内在机制。