小米端侧大语言模型荣获CCF计算机应用年度创新技术一等奖

7月17日，在中国计算机学会计算机应用专业委员会（CCF TCAPP）举办的年度创新技术评选中，小米公司的**《小米端侧大语言模型》**技术脱颖而出，荣获一等奖。

CCF计算机应用专业委员会成立于1978年，是中国计算机学会（CCF）设立的开展计算机应用领域学术活动的主体。作为中国计算机领域最有影响力的学术组织之一，2024年，专委继续开展了CCF 计算机应用年度创新技术、年度创新产品、特别贡献人物、计算机应用大会优秀论文、优秀志愿者的评审表彰工作。

本次评选是中国计算机学会第39届中国计算机应用大会（NCCA2024）的重要活动，旨在展现计算机领域各研究方向前沿科研成果，促进更多科技成果落地转化。其中，在年度创新技术的评选中，作品需要在计算机科学、技术和工程方面取得的重大科技成果，具有明显的社会价值与经济价值。

01 效率革新，更适用于“端侧”的大模型

自大模型出现以来，其优异的理解和生成能力令人惊艳。但通用大模型需要庞大的数据支撑和巨大的计算资源，使得使用过程不仅耗时，而且成本昂贵。实际上，在许多应用场景中，在较小的基座模型上进行业务数据的定制化训练，能更精准地满足用户需求。

因此，经过对效果、效率与使用成本的权衡，以及对软硬结合、生态连结等各因素的考量，小米大模型选择“轻量化、本地部署”方向，并将大模型能力下放到端侧。

相比于云端的大模型，端侧的好处则显而易见——无需云端处理信息，安全隐私性更好；不消耗云成本，高频使用下的成本更可控；弱网和无网环境也可以使用，交互场景更丰富、用户体验更稳定。

*“端侧”是指模型服务不是部署在云端，而是直接存储在设备内部的芯片中，仅利用芯片的算力生成结果。这样，服务不需要联网，数据也不用上传到云端。

然而，想要做好端侧大模型，并不是一件容易的事。大模型的参数规模大，内存和计算开销大，但终端资源有限。下放端侧意味着需要在很小的芯片算力空间中，做出体验不输其他大模型的产品。因此，大模型的本地部署挑战巨大。

面对内存、带宽、计算量等大模型推理时的重重考验，小米大模型团队从预训练数据、模型训练和端侧部署三方面进行了突破性的技术创新，革新了大语言模型的性能与效率。在研发过程中，小米端侧大语言模型申请了18项专利，发表了7篇顶会论文，包括1篇COLING24,5篇ACL24和1篇ICLR24。目前，小米端侧大语言模型已经在包括手机、汽车和AIOT等在内的智能终端设备中落地。通过几十项技术的创新，小米端侧大语言模型已经在多领域取得了行业领先。

▍预训练数据——基于检索和掩码策略的数据构建方法

小米端侧大语言模型提出了**一种新预训练数据组织方式BM25Chunk****。**标准的数据拼接方法通常将来自不同领域的数据随机拼接在一起，这使得在预测当前token时受到无关上下文信息干扰，进而降低模型训练效果，BM25Chunk通过BM25检索工具将语义相关数据进行拼接来增强一个chunk中数据相关性。方法在效果上取得了显著的提升，上下文学习（in-context learning）能力准确率提升11.6%，知识记忆（Knowledge Memorisation）能力准确率提升9.8%，上下文利用（Context Utilisation）能力准确率提升7.2%；

同时，小米提出了INTRADoc****掩码策略，标准的Decoder-only语言模型通常使用因果掩码策略（Causal Masking），这决定了模型在预测当前token时会看到之前所有上下文信息，包括非当前文档的内容，INTRADoc则通过屏蔽无关上下文，使得训练中当前token的概率仅取决于同一文档中的上文信息，消除了来自之前无关文档的潜在干扰信息，取得了效果的提升。

目前，相关工作已经发表在****ACL 2024上**，同时值得一提的是今年4月Meta发布了LLaMA3，在其技术报告中明确提出采用了小米的INTRADoc的掩码策略。**

▍模型训练——基于模块内低秩结构的模型剪枝方法

小米端侧大语言模型提出了一种**基于模块内低秩结构的模型剪枝方法。**结构化剪枝能够减少大语言模型的计算和内存开销，在已有模型的基础上快速得到稠密、高精度但参数量更小的模型，更加容易进行端侧任务的定制和进一步压缩。

小米设计了轻量化大模型结构和与任务无关的大模型结构化剪枝方法TransAct。针对 Transformer 结构中多头注意力（Multi-head attention, MHA）和多层感知器（Multi-layer perceptron, MLP）两大主要模块，本方法以减小模块内隐藏层表征维度为目标，以隐藏层各神经元的激活值大小为依据，剪除激活值较小的神经元，形成类低秩表示的模块结构，同时保留 LayerNorm 等对扰动敏感的模块间隐藏表征维度。

在相同参数量的情况下，TransAct结构更多降低了****KV cache 大小和注意力计算量**，显著降低了推断开销，对带宽和算力受限的端侧设备更加友好**。对比未剪枝的原始模型，TransAct结构取得了400%推理加速；对比先前最佳的剪枝模型，TransAct仅需其50% 的KV cache空间，实现额外20%推理加速。

同时，与业内普遍使用的随机初始化预训练相比，TransAct剪枝方案仅需约10%的训练量即可得到效果相当的模型，大大减小了模型训练的算力、时间和能源开销。目前，相关工作已经发表在****ACL 2024上。

▍端侧部署——基于权重转移的端侧量化方法

量化是端侧部署的核心技术**，小米端侧大语言模型提出了两种量化方法：“基于权重转移的端侧量化方法”和“基于Outliers分离的端侧量化方法”**，相比于业界基准高通官方量化方案，量化损失下降78%；相关方法已经申请专利。

02

以AI为生产力，赋能生产生活

2023年8月，小米宣布集团科技战略升级，坚持“选择对人类文明有长期价值的技术领域，长期持续投入”的科技理念，与“深耕底层技术、长期持续投入，软硬深度融合，AI全面赋能”四个关键路径与原则，并总结为一个公式：（软件×硬件****）ᴬᴵ。作为首家把 AI 放在指数位置的科技公司，小米将包括大模型在内的 AI 技术看作一种生产力，将AI真正镶嵌在业务与产品中，为生产、生活赋能。

在历经一年多的打磨，小米端侧大语言模型已形成包括多种参数规模和形态的模型矩阵，能够在各种智能设备上端侧部署。同时，通过云端协同，小米端侧大语言模型也可以实现设备和场景之间的互联，为「人车家全生态」战略赋能。目前，小米端侧大语言模型已经开始逐步应用于智能家居、智能汽车、智能穿戴等产品中，为用户提供了更加便捷、智能的生活体验。

除了关键性的技术突破，能否利用新质生产力，赋能不同领域在计算机的高阶应用，也是衡量本次计算机应用年度创新技术项目的重要因素之一。此次《小米端侧大语言模型》项目获评CCF计算机应用年度创新技术一等奖，再次证明了小米在科技领域的成绩。这不仅是对项目本身技术实力的认可，也是对小米创新能力的肯定。

未来，小米也会不断拓展技术的边界，探索智能生活的无限可能。

长亭百川云 - 文章详情

长亭百川云

长亭百川云 - 文章详情

长亭百川云

小米端侧大语言模型荣获CCF计算机应用年度创新技术一等奖

01

效率革新，更适用于“端侧”的大模型

▍预训练数据——基于检索和掩码策略的数据构建方法

▍模型训练——基于模块内低秩结构的模型剪枝方法

▍端侧部署——基于权重转移的端侧量化方法

02

小米端侧大语言模型荣获CCF计算机应用年度创新技术一等奖

01

效率革新，更适用于“端侧”的大模型

****▍****预训练数据——基于检索和掩码策略的数据构建方法

****▍****模型训练——基于模块内低秩结构的模型剪枝方法

****▍****端侧部署——基于权重转移的端侧量化方法

02

▍预训练数据——基于检索和掩码策略的数据构建方法

▍模型训练——基于模块内低秩结构的模型剪枝方法

▍端侧部署——基于权重转移的端侧量化方法