大型语言模型(LLMs)时代协作策略是一个新兴研究领域,协作策略可以分为三种主要方法:合并(Merging)、集成(Ensemble)和合作(Cooperation)。
每个模型都有其独特的优势,这种多样性促进了这些模型之间的合作研究
尽管LLMs通过ICL和指令跟随在各种任务上表现出强大的多样性,但不同的LLMs在训练语料库和模型架构上的差异导致它们在不同任务上有不同的优势和劣势,有效的协作可以发挥它们的综合潜力。
对大型语言模型(LLM)协作的主要分类
LLMs协作方法的分类:
合并(Merging):在参数空间中整合多个LLMs,创建一个统一的、更强大的模型。
集成(Ensemble):结合不同模型的输出以获得一致的结果。
合作(Cooperation):利用不同LLMs的多样化能力来实现特定目标,如高效计算或知识转移。
不同协作策略的示意图,图中的每种动物代表一个不同的大型语言模型(LLM)
合并(Merging)方法
合并策略旨在通过在参数空间中整合多个模型来创建一个统一的、更强大的模型:
合并的目的:合并方法旨在解决单一模型可能存在的限制,如信息缺失、陷入局部最优或缺乏多任务能力。
合并为相对最优解(M-ROS):
描述了深度学习模型在训练过程中可能无法达到精确最优解的现象。
提出了通过合并多个模型的参数来获得更好的相对最优解的方法,包括简单平均和加权平均两种方法。
简单平均:将多个微调模型的参数以相等的系数进行平均,以创建一个更强的模型。
加权平均:根据模型的重要性或质量分配不同的系数,以实现更好的合并。
通过合并具有不同能力的模型来构建具有多任务能力的统一模型的尝试。
介绍了基于加权平均、基于任务属性和基于增量训练的方法来解决模型参数空间中的分歧问题。
定义了任务向量τt,这是一个指定预训练模型参数空间中方向的向量,该方向的移动可以提高特定任务的性能。
解决参数冲突的方法,包括参数冲突解决、减少参数方法和工具包(Toolkit)。
集成(Ensemble)方法
集成方法是一种通过结合多个模型的输出来提高整体性能的策略,探讨了在推理前、推理中和推理后进行集成的不同方法,以及它们如何影响推理速度、集成粒度和面临的限制。
在推理之前(a)、推理期间(b)和推理之后(c)的大型语言模型(LLM)集成方法的示意图。
集成学习的重要性:与传统的分类任务不同,LLMs通常通过文本生成来解决各种任务,因此它们的输出更加灵活和自然。这要求为LLMs设计特定的集成方法。
LLM集成方法论:
合作(Cooperation)方法
在大型语言模型(LLMs)的时代,协作策略不仅仅局限于简单的合并或集成。越来越多的研究正专注于通过LLMs之间的合作来解决各种问题或特定任务的更广泛方法,根据目标可以分为不同合作策略:
高效计算:通过输入压缩和推测性解码来加速模型推理。
大型语言模型(LLMs)与压缩模块合作进行输入压缩
大型语言模型(LLMs)与草稿生成器合作进行推测性解码
知识转移的重要性:由于直接训练大型模型获取新知识既困难又成本高昂,因此通过合作转移知识或能力成为一个重要的研究方向。
知识转移的方法:
观察到输出逻辑的变化反映了LLMs能力的变化,并提出了调整输出逻辑来为大型模型提供从小模型中提取的新能力的方法。
补偿性合作:引入额外的控制器来补偿LLMs的不足,如检测器和检索器。
联邦合作:通过联邦学习和联邦提示工程来保护用户隐私并有效执行命令。
大型语言模型(LLMs)在联邦学习中与客户端模型合作
`https://arxiv.org/abs/2407.06089``Merge, Ensemble, and Cooperate! A Survey on Collaborative Strategies in the Era of Large Language Models`
来源 | PaperAgent