2024 火山引擎 AI 创新巡展・成都站于近日正式举办。活动现场发布了豆包・图生图模型,以及升级版的豆包・文生图模型、豆包・语音合成模型、豆包・声音复刻模型。
本文介绍了升级版文生图、语音合成、声音复刻模型特征,包括图像生成方面更深刻理解主客体关系、空间构造等特点,语音合成方面准确表达情绪、保留吞音、口音等能力。来自豆包大模型团队视觉、语音方向的同学还展望了未来文生图及语音合成方面的发展趋势。
日均 tokens 使用量突破 5000 亿——近日,2024 火山引擎 AI 创新巡展・成都站上,豆包大模型最新进展对外公布。一同发布的,还有豆包・图生图模型,以及升级版豆包・文生图模型、豆包・语音合成模型、豆包・声音复刻模型。
今年 5 月,字节跳动发布豆包大模型家族。据后续第三方 FlagEval 大模型评测平台发布的榜单显示,豆包大模型(Doubao-Pro-4k)在闭源大模型的“客观评测”中,以综合评分 75.96 分排名第二,仅次于 GPT-4 ,是得分最高的国产大模型。在“主观评测”中,豆包大模型同样排名第二。
2 个多月过去,平均每家企业客户日均大模型 tokens 使用量较发布时增长了 22 倍。爆发式增长的背后,也是豆包大模型模型能力和应用效果受到认可的体现。
豆包大模型团队为本次发布的主要能力提供了技术支持,本文将介绍这些主要能力细节,解读背后涉及的技术内核。
本次文生图模型升级能力体现在三个方面:
**其一,****新一代模型能够深度理解复杂 prompt ,包括多主体、反现实、主客体关系等内容,图文匹配更精准。
**
prompt:摄影作品,超现实主义,电影质感,一只超级巨大的猫咪,陆家嘴,超级可爱,躺在上海的街头,小汽车,猫咪和大楼一样高,和马路一样宽,堵住了马路,马路上很多车辆来来往往,汽车和猫爪一样大
其二,模型也更善于从光影明暗、氛围色彩和人物美感三个方向提升画面质感。
prompt:大卫雕像,站在草地上,扔铅球的姿势,石膏材质,在现代奥运会场馆内,史诗般的构图,超精细,完美的光照
其三,强化中国特色内容,能够对中国元素,包括中国人物、物品、朝代、地理、美食、节日等精准理解。
团队认为,此次发布模型的“中国风”生成能力是最大亮点。我们使用了原生双语 LLM + 数据,实现了精准的中国元素生成。
prompt:一个国风女孩穿着清朝的服装,眼神灵动,鼻子自然且好看,头上戴着黄金头饰,复杂的纹理,皇后,红色的袍子上面是龙和凤凰的刺绣,复杂的图案,珍珠项链,下雪,金色的指套,红色的大门和城墙
prompt:一个中国古代女侠,指向前方,侧身侧脸,表情凝重,中景镜头,风沙,(背后许多剑都朝手指的方向飞去:1.4 ),史诗般的构图,中式玄幻,细腻的皮肤,写实风格,景深,摄影艺术,极致的细节,阴影,电影海报,胶片噪点,低饱和度
prompt:电影质感,摄影作品,哈苏,极简主义,意境构图,大面积留白,雾凇,一座苏州园林里,树梢挂满了雾凇,超高质量,超精细,最佳质量,禅意,东方意境
prompt:classic red and white,细线条,水墨写意,含苞待放的梅花上有落雪,天气极寒,一个穿着清朝斗篷的女人,在巨大的梅花树下斜倚着,吹笛子,忧伤的思绪,担心笛声会惊扰梅花
为使模型实现能力提升,团队进行了多方面准备。
在数据上,团队持续加强数据 Re-caption 能力,对数据进行精确打标以实现对数据质量更高把控。面向大批量数据进行管理和处理,团队还对训练集群稳定性也进行了优化。
文本理解模块,团队采用原生双语大语言模型作为文本编码器,显著提升对中文的理解能力。它能拥有更广泛的世界知识并对不同语言已经形成基础认知,换而言之,无论面对中文特色用语,还是英语俚语,语言模型都能提供更准确的 Text Embedding ,让模型能够精准的学习原始的文化元素。
部署推理方面,团队使用蒸馏方式,解决模型推理耗时问题,以实现在更低部署环境下,完成高质量的图片生成。从数据上看,他们将原有模型生成图像步数简化,消耗时长压缩到原有 40%。
最后,团队还规划了更全面、准确的维度以评价图片生成质量,其中包括:结构准确度、画质、图像美感、图文一致性、内容创造、复杂度适应性等。即便是同维度中,团队还会通过主体准确性、多主体准确性、动作数量等维度对生成效果进行评价。
除却文生图模型,本次发布还包含图生图模型,不仅能高度保留原图的人物轮廓、表情、空间结构等多维特征,还支持 50 余种不同风格,支持图片扩展、局部重绘和涂抹玩法,让图片进行创意延展。现已应用于抖音、剪映、豆包、星绘等应用,并已服务于三星、努比亚等企业,涵盖了手机相册、工具助手、电商营销、广告投放等多个领域。
**
语音同样是本次发布重点,包括升级版豆包・语音合成模型和豆包・声音复刻模型。
**
其中,语音合成模型能深度理解故事情节和人物角色,正确表达情绪,还能保留吞音、口音等发音习惯,媲美真人音色,让发声更自然。团队针对 26 个精品音色进行了更精细的把控,以支持各种细分场景下专业主播需求,落地方向包括现场主持、播音、直播等场景。
与之相对,豆包・声音复刻模型则支持 5 秒复制高保真音色,高度还原说话人声音特征和口音,支持跨 6 大语种迁移,发音更接近于当地人表达。这一模型面向于“学习任一角色声音”,复刻能力更好,甚至连说话人的口癖好也能学习到。
注:声音复刻“太白金星”效果展示
上述两个模型的底层技术,都关联 Seed-TTS 。
这是一个语音生成基座模型。与传统 TTS 面向单一任务不同,Seed-TTS 能够建模各种声音,且允许同时从很多个维度进行操控,比如方言,真人口癖,甚至吞字这类语音上的瑕疵。
至于大模型如何学习“吞音”、“口音”、“口癖”的原理,团队认为,传统的 TTS 使用特定建模,针对模型框架、模型时长、能量分布、音调分布进行设计,注入了人类的先验性,没能很好反映数据特征。但大模型能“让数据自己说话”。
本身大模型就拥有建模并提取大数据特征的能力,使得语音特征得以保留,再加上 RL 、数据增强、更好的文本标注、文本表征,强化了特定层面的表现。
比如“哈哈”二字,在不同语境有截然不同的意思和表达方式,Seed-TTS 可以通过上下文理解不同场景的意思,以学习到不同场景的对应表达方式。同理,TTS 模型也能实现深度理解故事情节和人物角色,正确表达情绪。
注:语__音合成中更多情绪表达展示
,时
具体实现方面,Seed-TTS 针对语言模型系统,主要解决了语音的 tokenize 和稳定性问题。
目前市面上,连续和离散的 tokenizer 都有,团队通过研究探索发现,token 包含信息的设计,对整个模型各方面表现及稳定性有非常关键的影响,这既包括 token 的信息、帧率等,也包括如何 tokenize ,以及如何将其再变回声音。
语言模型稳定性方面,团队在 token ,模型设计,解码策略,数据准备上进行了多方面的探索,真正做到了工业及应用的要求。
对于纯 Diffusion 系统,由于去掉了额外的时长模型,其难点同样集中在稳定性上。经过多方的尝试,团队在该链路也实现了很好指标。
研究工作外,为支持本次升级发布,豆包大模型语音团队还在算法层面进行迭代,包括增加可控性、表现力和稳定性。在工程上,团队参与降低了运算量,还与工程同学一起 Debug ,确保实际效果和 Demo 一致。
回顾语音大模型领域发展,团队认为,传统 TTS 、ASR 等任务研究彼此分隔,落地到不同领域和场景中也相应要做适配和调整,随着大模型浪潮来临,各种任务从底层融合,才是大势所趋。
过去的研究显示,人脑学习语言和发音是通过经验和不断模仿,这一过程中,“听”与“说”两者同等重要,对机器也一样。
如果说 TTS 模型是机器的“嘴巴”,那 ASR 模型则对应“耳朵”,一个掌管发声,一个负责听见及理解,但两者的内核都依赖于对声音和文本信息的特征提取。
与之对应,豆包大模型团队在语音方向已经先后公布了 Seed-TTS、Seed-ASR 两个模型。其中,Seed-ASR 技术报告近期才对外披露,它能利用 LLM 丰富的知识,整体提升 ASR 识别结果的准确性,在多个领域、多种语言、方言、口音综合评估集上,Seed-ASR 比其他端到端模型表现出显著改进。目前,相关技术也已集成到豆包・语音识别模型中。
关于 TTS 模型和 ASR 模型的融合探索工作,团队已在进行中。
至于文生图方面的展望,豆包大模型视觉团队认为,Stable Diffusion 发布至今已过去 2 年,业内有很多新技术和插件涌现,比如 LoRA 、ControlNet 、Adapter ,也有 DiT 架构和更为强大的语言模型。团队透露,基于 DiT 架构的文生图 2.0 版本即将上线,新版本将比当前模型生成效果高 40% ,图文一致性和美感也有大幅提升。
同时,文生图领域目前仍有一些底层问题没有很好地被解决,也将是团队未来努力的方向。
一方面,模型对事件的理解能力需要进一步提升,具体来说,图文匹配能力,是文生图技术发展的核心。
另一方面,文生图需要更好的可控编辑生成能力,即便 ControlNet、Adapter,目前仍有缺陷,该问题的解决能为应用落地带来更广阔可能性。
最后是社会责任问题,文生图模型需要从公平性、安全性、消除偏见等方面进一步提升,以对社会公众更负责。
从文生图的 DiT 架构升级,到语音模型的“ All-in-One ”,我们希望持续吸引目标远大、有志于“用科技改变世界”的优秀人才加入团队,贡献创新性想法,并一同参与这些底层问题的解决与突破中。
**豆包大模型团队持续热招中,欢迎点击阅读原文,了解团队招聘相关信息。
**
点击“阅读原文”,了解团队招聘信息 !