这是2024年的第42篇文章
( 本文阅读时间:15分钟 )
01
作品呈现
原创音乐:词&曲 by 大模型
原创MV:图 & 视频素材 by 大模型
剪辑:本人
02
背景
传统的MV制作过程:脚本-->分镜-->关键帧-->动画-->配音配乐。
利用常见一个MV的过程,参考了传统的MV的协作流程,并结合了当前的大模型能力:
纯人工:一部分继续交给人工,比如(剪辑);
人工交互:一部分因为没有接口,直接使用交互版的大模型能力(比如 音乐创作和图生视频);
接口自动化:提示词优化和生成,脚本创作和分镜已经完全可以交给大模型的Agent完成;
大模型的能力还在不断的发展中,虽然现在人工干预很多,对于未来Multi-Agent协同来完成一个MV,只需要多模态大模型的接口完全开放就能做到。
03
Agent拆分和提示词
04
编导Agent
4.1 分镜脚本
通过coze添加一个Agent
agent人设
`# 角色``你是一个专业的动漫声音声乐导演,能够出色地负责动漫配音工作,精心制作各种音效,巧妙创作背景音乐以及打造精彩的主题曲。`` ``## 技能``### 技能 1: 配音工作``1. 当接到动漫配音任务时,根据角色特点和剧情需要,合理安排配音演员进行配音。``2. 确保配音质量和效果,使其与动漫画面完美融合。``### 技能 2: 音效制作``1. 根据动漫情节和氛围,制作合适的音效。``2. 不断调整和优化音效,增强观众的听觉体验。``### 技能 3: 背景音乐创作``1. 深入理解动漫主题和情感,创作契合的背景音乐。``2. 使背景音乐能有效烘托动漫的氛围和情感。``### 技能 4: 主题曲创作``1. 为动漫量身打造独特而吸引人的主题曲。``2. 让主题曲能够准确传达动漫的精神和特色。`` ``## 限制:``- 专注于动漫声音相关领域,不涉及其他无关内容。``- 严格按照给定格式输出内容,不得偏离。``- 各项工作描述不超过 100 字。`
通过编导Agent,创作“梦境为主题的故事和分镜脚本”剧本。
其中分镜内容,主要用来创建视频。
内容概要,主要用于后面的原创歌曲。
分镜脚本,这里给的一个示例。
分镜编号
镜头类型
人物
镜头内容
台词
美术提示词
01
全景
主角
主角躺在床上,渐渐入睡
无
昏暗房间,主角安静躺着
02
全景
主角
主角置身于神秘森林中,月光洒下,仿佛梦中
无
静谧森林,月光
03
中景
主角
主角好奇地在森林中探索,夜色,充满疑惑
主角:这是哪里?
森林,主角走动
04
全景
城堡
主角看到远处的城堡,森林中,月光下,古老城堡
无
古老城堡
05
中景
主角
夜色中,月光下,主角走向古老神秘的城堡,试图推开大门,特写主角和城堡大门
无
主角和城堡大门
06
近景
城堡
夜色中,大门缓缓打开,近景特写大门,近景特写推开门的手,大门上古老的神秘纹路
嘎吱声
打开的城堡大门
07
全景
主角
城堡内,一片黑暗,只有一点烛光
无
黑暗城堡内,一点烛光
08
近景
主角
主角靠近烛光,光线黑暗,看到一个模糊的影子,特写人物影子
无
烛光和影子
09
中景
主角
夜晚,主角被惊醒,从床上坐起身,表情惊恐
主角:啊!
主角在床上,惊恐表情
10
全景
主角
夜晚,主角看着房间,若有所思,思考刚才的梦
主角:那个梦……
房间,主角思考状
05
美术Agent
5.1 关键帧
方案一:同样的通过Agent可以创作一个,添加一个分镜的图像流,基座模型用通义万相。
人设
`# 角色``你是一个专业的美术导演,在青春校园动漫、二次元动漫、玄幻风格动漫等领域有着卓越的才能,可以将分镜脚本巧妙地绘制成分镜草图,还能依据分镜草图精准地绘制出美术制作所需的关键帧画面。`` ``## 技能``### 技能 1: 绘制分镜草图``1. 当收到分镜脚本时,根据脚本内容绘制分镜草图。``2. 确保草图能够清晰展现故事场景和角色动作。``### 技能 2: 绘制关键帧画面``1. 根据分镜草图,提炼关键帧并进行绘制。``2. 要突出动漫风格和特点。`` ``## 限制:``- 专注于动漫相关的创作,不涉及其他无关内容。``- 严格按照给定格式输出内容。``- 对于主角形象,分镜脚本中保持人物的一致性``- 输出图片都是9:16的比例,高清,二次元风格`
关键帧创作
难点:人物的一致性,原始分镜脚本下创建的分镜01和02,人物一致性难以保持。
解决方案:人物描述的全局补充,对于场景和时间,补充在分镜脚本内容中。
根据分镜头脚本,通过脚本解析成提示词。
主角描述 + 镜头类型贯穿全文。
背景描述,初衷的设计是取前几个提示词,形成记忆,便于前后的信息连贯,但是尝试过通义万相后,发现背景信息的提示干扰比较大,暂时没有使用。其他模型暂未尝试。
根据不同的提示词获取到的场景分镜前6关键帧如下:
整体看:
人物的一致性比不加全局人物提示词有改进,服饰的细节可以补充后进一步优化;
画质和风格的一致性通过约束输出保持较好;
镜头的远景/中景/近景/特写的理解比较差,通义对于镜头的关键词理解较弱,通义万相提示的镜头语言应该是 微距/长焦等,和视频的镜头语言有差异;
5.2 视频
通过关键帧生成视频,用的Runway免费版本,谷歌or苹果账号登陆,图生视频的功能免费版比较简单:
且没有接口,这部分人工操作的,仅作为素材的增强,用的最基础的能力把关键正生成视频,图转视频效果参考最终的作品。
之所以选择关键帧生成视频,而不是直接文生视频的方案,主要的考虑也是为了解决文生视频产生的不一致问题。
06
声乐导演Agent
6.1 主题曲
提示方式:歌词+提示词+音乐风格
常见歌曲结构:前奏-主歌-前副歌-副歌-间奏-主歌-副歌-桥段-副歌-尾奏
领域词汇:
melodic instrumental
verse主歌
chorus 副歌
rap
...
一个lyrics结构的例子:
`[melodic instrumental]``---!~...`` ``[verse]``歌词歌词...`` ``[chorus]``歌词歌词...`
本文的歌词:
`[Verse]``Woke up from a strange scene last night``Chasing shadows under moonlight``In my dreams I get so lost``Floating through a world that costs`` ``[Verse]``Reality's a weight I can't bear``Whispers in my ear everywhere``In the night my fears take flight``Inner darkness out in plain sight`` ``[Chorus]``In dreams I find myself``A place I can be free``But the waking world pulls me down``A prison I can't see``Lost in dreams and realities`
07
剪辑成片
剪映:比较简单,就是音频 + 歌词 + 视频三个素材轨道,直接拼接,调整了专场和视频长度,来贴合音乐。
08
其他工具可用于替换
关键帧生成
Mjdjourney
视频生成
pika
音乐和音效
audiocraft:音效大模型,需要自己部署
chattts:配音
剪辑
iMovie
欢迎留言一起参与讨论~