关注公众号,发现CV技术之美
多模态大型语言模型(MLLMs)的高速发展彰显了其在处理图文信息方面的强大潜力。然而,目前的多模态模型和方法主要集中于处理基础视觉问答(VQA)任务,这些任务通常只涉及与问题强相关的有限图片和文本信息。在实际应用中,尤其是文档理解领域,模型经常需要处理更为复杂的图文混合输入,这些输入不仅长度更长,而且可能包含冗余甚至误导性的信息。现有的主流MLLMs在处理此类复杂任务时表现不佳,且缺乏相应的Benchmark来评估模型在这些任务上的性能。
近日,来自厦门大学纪荣嵘团队提出了一个全新的多模态任务——交错图文阅读理解(Interleaved Image-Text Comprehension, IITC)。该任务要求模型处理包含复杂图文交错信息的输入,并在回答问题时明确指出其参考的图片。为了有效评估和提升模型在IITC任务上的表现,他们构建了VEGA数据集。该数据集专注于科学论文的理解,包含超过50,000篇科学论文的图文数据。
作者对Qwen-VL-Chat模型在VEGA数据集上进行了微调,并采用了一种多尺度、多任务的训练策略,得到VEGA-Base模型。实验结果显示,该模型在IITC任务中的图像关联准确率方面达到了85.8%,为IITC任务建立了一个强有力的Baseline。目前,VEGA数据集已全部开源,包含593,000条论文类型训练数据,2个不同任务的2,326条测试数据。
图中展示了VEGA提出的IITC任务和常见的VQA任务的不同
左边:现有的VQA任务以少量的图片和较短的本文作为输入,且图像和文本信息与问题往往强相关。
右边:IITC任务以更长更复杂的图文交错内容作为输入,且包含冗余和具有误导性的信息,模型在回答时要求指明其参考的图像。
我们共提出了两个任务用于评估模型处理图文交错输入的能力,其具体定义如下:
IITC任务以包含冗余信息的图文交错的内容作为输入,针对其中的一张图片进行提问,要求模型在回答的时候指明其参考的图片,最终以回答文本的ROUGE、BLEU和参考图片的正确率共同衡量IITC任务的表现。该任务考验模型根据指令关联和提取正确文本和图像信息的能力。
ITA任务将来自多篇文章的文本图像对打乱作为输入,要求模型回答图像和文本之间的对应关系,以对应关系的准确率来衡量ITA任务的表现。ITA任务的训练可以提升模型图像和文本之间的关联能力,进而提升模型在IITC任务上的表现。
为了提升和评估模型在IITC和ITA任务上的表现,作者构建了VEGA数据集。VEGA源自SciGraphQA数据集,后者是一个论文图片理解任务的数据集,包含295k个问答对,作者在其基础上进行了问题筛选;上下文构建;答案修改三个步骤,如下图所示,得到VEGA数据集。
问题筛选:原数据集中部分问题缺乏明确的图片指向,当将输入的信息拓展到多图时会造成理解的混淆。
上下文构建:原数据集中问答仅针对一张图片,且提供的上下文信息较少。为了拓展文本和图片的数量作者在arxiv上下载了相关论文的源文件,并构建了4k token和8k token两个长度的数据,每个问答对包含至多8张图片。
答案修改:作者修改了原数据集中的答案,指明了回答时参考的图片,以符合IITC任务的要求。
作者分别使用4k token和8k token长度的VEGA数据在Qwen-VL-Chat 7B上进行了微调,得到了VEGA-Base-4k和VEGA-Base-8k模型,使用8k token长度的VEGA数据及部分私有的图文交错数据训练得到自研模型VEGA-8k*。
这部分私有数据包含了更广泛的图文交错的应用场景,这使得VEGA-8k*具备了更**通用的文档图文理解能力,**不仅能够完成科学论文的阅读理解任务,在例如:操作手册理解、游玩攻略总结、金融财报分析等任务上也表现优异(具体样例在文末展示)。
作者在VEGA的IITC和ITA子集上对现有的支持多图输入的主流MLLMs进行了测试,具体结果如下:
从结果中我们可以观察到,Qwen-VL-Chat在多个任务中的性能相对较弱,这主要归因于它在遵循指令方面的不足。
相比之下,经过在VEGA数据集上微调的 VEGA-Base-4k 模型和 VEGA-8k* 模型,在IITC和ITA任务上均展现出了卓越的性能,甚至超越了一些主流的闭源模型,达到了SOTA水平。
这强有力地证明了VEGA数据集在提高模型处理图文交错输入方面的有效性。
作者还分别使用SciGraphQA和VEGA数据集对模型进行训练并测试其在SciGraphQA和IITC任务上的表现,其具体结果如下(表格中 VEGA* 代表了旧版本的VEGA数据集):
测试结果显示,VEGA数据集训练的模型在两个任务上的表现都较好,而经过SciGraphQA训练的模型则无法很好地处理IITC任务,这表明经过VEGA数据集的训练,不仅提升了模型处理长的图文交错输入的能力,也维持了模型在处理传统VQA输入模式的能力。
在本章节中,作者进一步展示了在实际场景中多模态阅读理解模型 VEGA-8k* 的效果。作者选取了金融、汽车说明书以及旅游介绍三类场景,设定了难点不同的场景任务 case,对比本文提出的 VEGA-8k* 以及一些开源模型产品的结果。
在实际测试过程中,作者将下列不同难点场景的case中context的内容转换成PDF的形式分别对文心一言、通义千问、KimiChat、腾讯元宝、Gemini和Gemini等多个多模态产品进行测试对比:
**Case难点:**用户针对说明书文档中的自然图像进行提问,答案不存在于文档的文字描述中,因此,需要模型对自然图像进行理解后做出回答,并输出对应图像。
从结果中不难发现,目前其他模型多模态模型产品均倾向于直接从文字中获得答案而忽略了图片中的内容。而 VEGA-8k* 则能对文字和图像内容进行联合理解,并根据图像内容给出准确的答案。
**Case难点:**联合理解用户输入的图片和文字内容,根据文档内容进行回复。从结果中不难发现,目前,KimiChat不支持输入不带有文字内容的图像,文心一言、通义千问和腾讯元宝的线上产品均仅支持图文问答,即根据图片内容回答用户问题,而无法将输入的图片作为问题的一部分进行理解,并根据文档内容进行回复。
目前,仅VEGA-8k*、Gemini和GPT-4o支持该功能。
**Case难点:**理解文字内容,结合图像里的数据内容回答用户问题。从该case的结果中可见,文心一言、腾讯元宝和Gemini均没有对文档中的数据图进行理解,而通义千问、KimiChat虽然在【Case 1】中没有理解文档里的自然图像,但在该样例中对于数据类型的图像有着较好的理解能力。
但除了VEGA-8k*之外,其他模型均不具备输出相关图像作为辅助说明的能力。
**Case 难点:**联合理解文字和图片内容,根据文字和图片之间的关联性,总结文字摘要的同时,在正确的位置输出图片。从结果上来看,所有模型都有着较好的指令跟随能力,能够输出指定的图片格式“[Picture *]。
但是,大部分的模型几乎都是机械式地输出文字附近的图片下标,而没有真正去理解图片内容,Gemini甚至出现了幻觉([Picture 8, Picture 9])只有VEGA-8k*和GPT-4O能够正确理解理解图文之间的关联性,给出出图率和准确率都较高的回答。
**Case难点:**论文数据图的相似度较高,需要细节化理解图片内容,找到正确的对应图片。从结果中不难发现,腾讯元宝没有正确跟随指令,导致没有输出图片占位符,而其他模型对于相似图片的区分度较低,且易受到文本内容的干扰,甚至于GPT-4V也出现了误判情况,
例如:Figure 4和Figure 5非常相似,但根据两图的x轴和y轴标签,我们可以确认问题是针对Figure 5提出的。现有模型未能有效捕捉到图片间的差异,因此未能给出正确的答案。而VEGA-8k*由于经过了较多的论文数据训练,对于数据图像细节的区分度较高,输出更加准确。
在一些问题指向更明确,图片之间差异更大的样例中,如第二个case,大多数模型可以正确地找到图片和问题之间的对应关系,少部分模型如文心大模型-3.5和腾讯元宝,在指令跟随和图文关联能力上存在不足,可能会出现拒答或无法关联图片的情况。
最新 AI 进展报道
请联系:amos@52cv.net
END
**加入「多模态大模型」**交流群👇备注:LLM