Llama 3.1 会助推这波「小模型」热潮吗？

机器之心PRO · 会员通讯 Week 30

---- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ----

1. Llama 3.1 会助推这波「小模型」热潮吗？

Llama 3.1 405B 训的小模型为什么更强？今年哪些头部AI公司在做小模型？Meta 还提出了哪些做小模型的技巧？提到了哪些小模型相关的工作？都在做小模型，Scaling law 还重要吗？小模型相比大模型优势在哪？更强的小模型要如何「炼」？...

2. AI 视频生成赛道：谁有机会吃蛋糕？谁在陪跑？

今年出现了哪些 AI 视频生成工具？新工具/模型追上Sora了吗？视频生成赛道哪些玩家拿到钱了？视频生成的 PMF 有苗头了吗？哪些火过的团队没动静了？...

3. 一站式 LLM 指南：论文深度剖析大型语言模型全貌

Cosmo IMD 的高级研究科学家 Giorgio Roffo 的论文都盘了LLM的哪些方面？重点讲了哪些内容？提升LLM性能的关键技术有哪些？在资源受限环境中下，如何更好地部署大模型？...

...本期完整版通讯含 3 项专题解读 + 29 项本周 AI & Robotics 赛道要事速递，其中技术方面 13 项，国内方面 7 项，国外方面 9 项。

本期通讯总计 26447 字，可免费试读至 8%

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读① Llama 3.1 会助推这波「小模型」热潮吗？

**日期：**7 月 24 日

**事件：**2024年以来，OpenAI、微软、Mistral AI 等机构开卷「小模型」赛道，陆续推出小参数规模模型。与此同时，Meta 推出开源模型 Llama 3.1 405B，扎克伯格希望基于 405B 模型的开源特性，使其成为微调和蒸馏小型模型的最佳选择。

大小模型的分岔口？Llama 3.1 405B 「大号」模型会是未来小模型的新起点吗？

在发布Llama 3.1 405B 开源大模型时，扎克伯格其文章《Open Source AI Is the Path Forward》中特别提到：「较于闭源模型，这些开源模型在成本效益上显著提升，特别是 405B 模型的开源特性，使其成为微调和蒸馏小型模型的最佳选择。」

1、Meta 于近期发布的 Llama 3.1 405B 因尺寸为开源模型中最大，性能媲美顶尖闭源模型等特征而引起了业内热议。在该模型发布前，多家头部机构发布了小尺寸模型，掀起了一阵「小模型」工作的热潮。然而，Llama 3.1 405B 虽然「庞大」，但似乎并不会阻止小模型热潮的延展。

① 自今年以来，Meta 发布了 350M 的 MobileLLM；微软推出了 Phi-3 系列小模型；谷歌开源 Gemma 2 为 9B 和 27B 两种参数规模；苹果开发了 DCLM-7B；Hugging Face 推出了135M、360M 和 1.7B 规模的 SmolLM，OpenAI 推出 GPT-4o mini；Mistral AI 和英伟达共同开发了12B 参数的 Mistral NeMo。

2、Meta 发布 Llama 3.1 405B 版本对比此前的 Llama 系列模型，在参数、预训练数据等方面均有提升。[9]

① Llama 3.1 405B 支持多种语言，上下文长度达到 128K，在常识、可操纵性、数学、工具使用和多语言翻译等方面可与顶级 AI 模型相媲美，其在一系列关键基准测试上的性能与 GPT-4o 十分接近。

② Llama 3.1 在大约 15 万亿的多语言 Token 语料库上进行了预训练，而 Llama 2 只使用了 1.8 万亿 Token。

③ Meta为此优化了整个训练堆栈，预训练采用超过 16,000 个 H100 GPU ，3.8 × 10²⁵ 次浮点运算（FLOPs），超过 Llama 2 的最大版本近 50 倍。

3、除了 Llama 3.1 405B ，Meta 还推出了 8B 和 70B 模型的升级版本，并在《The Llama 3 Herd of Models》论文中强调了在小模型上的投入，称其对较小模型进行的训练时间远超了计算最优的时长。

① Meta 在论文中表示，这些较小模型在相同推理预算下的表现优于计算最优模型，他们在后训练阶段使用了 Llama 3.1 405B 进一步提高了 70B 和 8B 模型这些较小模型的质量。

② 升级后的 8B、70B 两个版本同样支持多种语言，上下文长度达到 128K，并与具有相似数量参数的闭源和开源模型具有竞争力。

③ Llama 3 8B 几乎在每个任务类别中都优于竞争模型；Llama 3 70B 在大多数基准测试中都优于 Llama 2 70B。

4、Meta 还在论文中分享了数据对小模型能力的关键作用。

① 在后训练中，Meta 通过多轮对齐来完善 Chat 模型，涉及监督微调（SFT）、拒绝采样和直接偏好优化。大多数 SFT 样本由合成数据生成。其中，大多数 SFT 样本均采用合成数据。

② Meta 还重点介绍了退火数据（Annealing Data）的作用。通过在少量高质量代码和数学数据上进行退火处理，可以显著提升预训练模型在关键基准测试上的性能。该方法对 8B 小模型在逻辑代码能力方面有明显提升。在 15T Tokens 的预训练中，占比分别为知识 50%、数学 25%、代码 17%、多语言 8%。

表：2024年以来头部AI机构发布的小模型汇总。[1] - [9]

「小模型」热潮下，Scaling law 还重要吗？

1、在 Scaling Law 的「指引」下，语言模型越训越大。然而，对于Scaling Law是否真的有效的质疑声在业界一直存在，大模型的能力是否会随着参数量、算力、数据的增加而不断突破当前的上限？

2、Google DeepMind 团队的论文《Training Compute-Optimal Large Language Models》认为，实现 LLMs 计算成本的最优，模型的规模和训练数据量（token 数）应保持成比例的增长，即模型规模翻倍时，训练数据量也应相应翻倍。[12]

① 对于较小的模型，增加数据量以训练较大的模型能提升性能；对于较大的模型，使用更多数据训练较小的模型同样能带来改进。简单来说，即使模型规模较小，但如果用更多的数据进行训练，也可能达到很好的效果。

3、对 Scaling Law 的另一点质疑方向是，模型性能的提升是否存在一个「临界点」？有一种声音认为，当超过这个点后，继续无限制增加模型规模，带来的提升效果可能会变得非常有限。因为当模型达到一定的复杂度后，其泛化能力和稳定性会受到损害，更容易出现过拟合等问题。

3、按照 Scaling Law，更小参数模型的性能表现应该劣于更大参数模型。但随着更多优质小模型工作的出现则从侧面质疑了 Scaling Law 的有效性

① 来自 Meta AI 团队的论文《LLaMA: Open and Efficient Foundation Language Models》里的表述较为直观，「小型模型如果接受大量数据的训练，它们的表现可以匹敌甚至超过规模更大但数据量较少的模型。」[13]

长亭百川云 - 文章详情

长亭百川云

长亭百川云 - 文章详情

长亭百川云

Llama 3.1 会助推这波「小模型」热潮吗？

2. AI 视频生成赛道：谁有机会吃蛋糕？谁在陪跑？

要事解读① Llama 3.1 会助推这波「小模型」热潮吗？