跳转到内容

金属文:AI春晚《西游不能停》创作过程分享

📣

非常兴奋能和300多位小伙伴一起完成这次AI春晚的创作,整个过程可以说是相当crazy了。不仅在岁末伊始整了个大活,还认识了很多有趣又有料的新朋友,我自己也挑战了花10天(业余)时间借助AI完成一首歌完整的制作流程。

《西游不能停》可能不是最好或完成最快的节目,但绝对是参与人数最少的一个了。AI的加持给了每一位独立创作者和超级个体无限的可能。听说很多小伙伴对创作幕后和技术实现感兴趣,所以今天我在这做一个完整的分享。

音乐是我为数不多可以热爱终身的事情,新的一年我会继续创作出更多更好的作品,也欢迎志同道合者来找我一起玩,我们一起keep rocking🤘!

AI对音乐创作的改变

过去一首歌的制作流程通常是这样的:

  1. 作词与作曲
  2. 编曲
  3. 录音
  4. 混音/修音
  5. 母带

每一个环节都要花费很长时间,并且需要多个角色共同协作才能完成,对于没有专业背景的普通音乐爱好者更是望尘莫及。现在AI把很多环节进行了合并,如果不考虑制作MV,1个人不到1天完全可以创作出一首不错的歌曲(当然,那些粗制滥造的网红口水歌也可以)。

当然,创作音乐这件事并不是越快越好,音乐是一个创作者的表达,融合了创作者的阅历、思想、审美和经验,很多好的作品都是经过了多年的打磨才面世,从而成就了一个又一个永不过时的经典。这就是我为什么厌恶所有所谓的“网红神曲”,因为你看不到任何表达,言之无物的作品就是没有灵魂的垃圾。

有点扯远了....

AI可以帮音乐创作者以极高的效率把一个idear以demo的形式呈现出来,迅速搭起一首歌的骨骼框架,然后把更多的精力投入到歌词、音色、节奏这些更有个人表达的部分。比如我在创作《西游不能停》时,把大量的时间都花在了歌词的创作和flow的打磨上,而beats和rap全部用AI生成,只用了寥寥几分钟的时间。

并且,AI让我看到了一种全新的创作思路。

以乐队来举例,过去一支乐队创作一首歌时往往要先有一个动机,这个动机可能是一句歌词,一个和弦进行,一段旋律或者一个节奏型,然后乐队成员再通过jam等方式逐渐给作品添血添肉。

而Suno、Stable Audio、网易天音这样的AI工具,让你可以通过自然语言的描述,在短时间内生成一首编曲、歌词或demo,大幅降低了创作门槛,让普通音乐爱好者也有了自己创作的可能。

当然AI也有许多不足和缺陷,比如生成结果的不可控、保真度低等,这些不在今天的讨论范围内。

创作过程

灵感与动机

年前有部很火的电影叫《年会不能停》,狠狠地戳中了打工人的心,于是我就想到创作一首关于职场的说唱歌曲,并且。但我又不想做的太无聊太主旋律,这时想到了一个很早关注的B站up“倒悬的橘子”,他在2021年吧,做了一个火出圈的鬼畜西游题材的说唱系列叫"大唐gang",西游记里的师徒四人代表了很典型的职场关系,于是我创作了这首《西游不能停》。

作者在3年前制作"大唐gang"的时候AI远没有像今天这样普及,和其他的鬼畜视频一样,这首歌中的rap是作者用素材一个字一个字剪出来的,可以想象工作量有多爆炸。所以我最初的想法是借鉴AI孙燕姿,用sovits将师徒四人的声音还原,用这种方式来提效,但很可惜由于素材和技术问题最终没有实现,这个到后面讲。

总之我确定了大概的创作思路和工作流:首先用gpt辅助我写出歌词,然后把词丢给suno完成了beats和说唱部分,最后用86版西游记的素材剪辑成了最终大家看到的MV。

歌词

说唱近几年我听的并不多,印象还停留在中学时期听的Eminem、50Cent、2PAC、SNOOP DOGG这些OG,但歌词对说唱的重要性一直没变过

首先贴个完整歌词

🎤

悟空🐵:

这西天的妖魔鬼怪全被俺踩脚下

再来段 freestyle 把你秃头念爆炸

别再废 没用的大计

不如回 在小小的花园里面

职位 是你包装的假慈悲

俺的火眼金睛准得像2014的马刺队

for three! 我求你别再瞎指挥

我只想封佛牌 功成身退 再活八十岁

唐僧👨‍🦲:

我的乖徒儿 你耍嘴皮子溜得飞起

为师的紧箍咒 nine nine six 给你开会议

老实说吧 经书贫僧不是自己取不

而是免费的劳动 generally 更有性价

听说 隔壁 那个 悟空 能变 超级赛亚人

反观 你呢 小学 肄业 勉强 会念白话文

别再 叽叽 歪歪 胡搅 蛮缠 给我带坏人

待遇差 反思下 自己有没 认真工作

八戒🐷:

想当初俺 天蓬元帅 在天庭久战沙场

嫦娥姐姐 仙女妹妹 都叫声街头霸王

自从取经 一菜一 饿得俺面色蜡黄

朝思暮 翠兰姑 那一手九转大肠

都笑俺老 是个废 吃不得苦中

西天的道路 遥远的印 我自有我抱负

尊嘟假 妖魔怪 逃不出 九尺钉耙的速

毕竟前的女施 还需要俺老来保

悟净🧔:

yo put your hands up here is 沙僧 AKA 悟

虽然solo不 可人家很正

还有那些杠同事diss我的发

等我吹瓶燕 再来怼你怼得发

磨人的小妖怪 和女王的裤腰带

不过是我师徒修行路上下酒

保持状 不惧怕失

才能苦尽甘最终等到幸福如

如来:

即见如来 为何不拜

下面带大家回顾一下创作歌词的过程,如何将想法变成具体的歌词:

  • 确定主题

紧扣“西游记”和“职场”主题,体现师徒四人的人设和冲突(比如唐僧用紧箍咒惩罚悟空,八戒的贪吃和好色)同时加入一些职场热梗(比如996,画饼),这一步我用chatgpt的browsing进行总结给我提供灵感;

  • 增加趣味

为了让歌词更加有趣,我又让大模型搜集了一些2023年的网络热梗,融合进歌词。

  • 创作思路

写说唱一般有三种方法:

  1. 先定flow,再填词。有一些公式可以套,比如将一个小节拆成1个2分音符和2个4分音符,再把词填在每个音符上,适合新手和freestyle,可以参考这个视频

  1. 先写词,再优化flow。适合比较确定的歌词内容,可能还需要有一定对flow的积累和感觉。比如在4/4拍下这句歌词可以是这样的:

歌词

这西天的妖魔鬼怪全被俺踩脚下

flow

1/4

2/4

3/4

4/4

1/4

2/4

3/4

4/4

这西天的

妖魔

鬼怪

全被

俺踩

脚下

(延音)

或者,你可以直接把歌词丢给SUNO这样的AI工具,它会自动转化为一首说唱歌曲,也是我这次采用的思路。不过经过我的大量测试,生成的flow质量与你的歌词和输入格式有很大关系,这个放在后面讲。

  1. 歌词、flow一起搞。在创作歌词的同时就融合了flow,这会是AI生成式音乐未来的发展方向。

  • 押韵技巧

这里用到一个小工具“押韵大师”:https://rap.zlxiang.com/,可以根据上下文输入单词,轻松创作出双押、三押。

其实现在的中文大模型也是懂押韵的,但还无法直接生成很炸裂的多押,但是不妨碍为我们写词提供灵感,未来随着大模型的进化,或者接入押韵大师这样的外部能力,说不定可以做出一个专业的写词GPTs,这也是我最近正在研究的比较好玩的事情。

生成音乐

音乐生成使用了大名鼎鼎的文生音乐模型Suno,教程可以参考Keen和陈浚嘉的这两篇教程:

Suno 操作指北 V1

Suno 操作指北 V2

这里只分享我个人的一些心得。

Suno和大语言模型一样都具有很强的随机性,并且输入(prompt/tag)质量往往决定了输出(生成音乐)质量,想要避免无谓的抽卡,让生成结果无限地靠近自己的想法,就需要使用一些提示词技巧。

在自定义模式(Custom Mode)下,有两个主要的输入窗口:音乐风格(Style of Music)与歌词(Lyrics),我们分别来讲

音乐风格(Style of Music)

这里需要你填写一些tag来描述整首音乐的风格和感觉,多个tag之间用“,”进行分隔。

根据suno的官方文档和我的测试,可以识别的tag有:

  • 音乐类型/流派:如ROCK、FUNK、JAZZ、EDM、K-POP等
  • 人声/乐器:如clear female vocal、electric guitar、drums、cello等
  • 情绪/氛围:如pure weepery、epic、Christmas Vibes、action packed等
  • 节奏:staccato、4/4 time、build up等
  • 场景:如movie soundtrack、jingles、wedding band
  • 混响:recording studio、concert hall、underwater等
  • 其他和声/音效等:如3-part harmony、cartoon sound effects、droning

不支持音乐家/歌手bpm(每分钟节拍数)。我猜测这可能和他们给音乐打标的方式有关吧。

这些tag你可以自由搭配,加在一起就形成了整首歌的约束条件,接下来Suno会在这些约束下去生成音乐。比如《西游不能停》中我填写的是hiphop, trap, 4/4 beats, Phonk Beats,这样生成结果会是一首迷幻电子trap感觉的说唱歌曲,而不是西海岸说唱的感觉。

hiphop, West Coast, 4/4 beats

hiphop, trap, 4/4 beats, Phonk Beats

歌词(Lyrics)

这里除了可以填写歌词,还可以加上丰富的Metatag(元标签)来帮助suno更好地理解你的想法。比如intro、verse、chorus、bridge、outro这些段落化的描述,或者你希望某个段落用什么乐器、什么节奏、是否加入和声等。虽然已经有了很多的Metatag可以帮助你进行提示,可惜的是,suno目前仍然不能完全遵循你的想法去创作音乐,这就是AI生成式音乐无法避免的随机性。

那么,有没有办法让生成结果朝我们希望的方向倾斜呢?据我观察是可以的。

还是以说唱歌曲为例,歌词的质量往往决定了rap的flow质量,换句话说,好的词可以让AI生成好flow的概率大大提高。如果你把随便写的一串没有任何节奏的词丢给它,生成结果大概率是灾难级的,比如下面这个极端的反面例子,我把不停重复的“恐龙抗狼”丢给AI,哪怕你把积分都抽完,也不会得到满意的结果

(友情提示:听完记得洗耳朵):

所以在创作歌词的时候,最好通过断句让它看上去自带节奏,同时加入一些节奏的变化,使flow不要过分单调。

除此之外,我发现suno似乎还可以通过输入格式控制说唱的flow,举个例子,

(注意听“别再废话 规划 可怕 没用的大计划”这句,大概在18s左右):

上面两首的歌词格式是这样输入的:

别再废话

规划

可怕

没用的

大计划

我觉得这几个词的flow不理想,我想让它再连贯紧凑一些,于是我删掉了换行符,变成下面这样再次输入:

别再废话 规划 可怕

没用的大计划

再来听一下修改后的结果(大概在15s左右):

很明显结果向我希望的方向倾斜了。

《西游不能停》中类似的优化有很多,并且最终只抽了两次卡就得到了我满意的音乐,虽然suno没有办法像谱子那样100%精准地控制节奏,但是活用符号进行断句,再结合Metatag,就可以最大限度的控制生成方向,同时保留随机的乐趣。

续写歌曲

这首歌在年前创作的时候suno还是V2版本,单次最多只能生成80s的音乐,没法唱完所有的歌词,所以我们需要进行续写,web端在我们想要续写的歌曲这里点击“continue from this song”即可,在discord中则是点击“⏩continue 1/2”的icon。这里吐槽一下suno的web前端页面,实在是太黑了啥都看不清😅

web端

Suno on discord

如果续写的时候正好卡在一个段落的中间,有两个细节需要注意,一是不要在lyrics的最前头加任何Metatag,否则会被当做一个新的段落,丢失掉连贯性;二是如果第一段的结尾最后一个字哪怕没有唱完,只发了一点点音,续写的时候也直接从下一个字开始就好。

还是举个🌰,《西游不能停》的第一段在八戒的“我自有我抱负”这句结束,并且“负”字只发了一半的音,那么续写的时候直接从“尊嘟假嘟....”开始。你可以直接跳到Part 1的最后和Part 2的开始听。

Part 1

Part 2

生成式AI音乐就像一个黑匣子,你永远不知道下一个生成的东西是惊喜还是惊吓,但这也是它好玩的地方,比如你可以告诉它生成一首“既快乐又悲伤”,或“古典又前卫”这种看似矛盾的音乐,没准一首优秀的实验音乐就诞生了。

混音/修音

其实也谈不上混音,就是demo生成出来后,对一些小瑕疵和细节做修改。

一、中文发音错误

suno对中文的支持并没有其他语言那么好,有很多字是念不对的,甚至有时候用国语唱到一半,突然切换到了粤语,我严重怀疑suno把“国语”和“粤语”歌曲放在一起训练了。要解决这个问题有两个办法:

1、用更常用的同音字代替输入给suno,《西游不能停》中有多处用到了这种办法,比如我发现“表率”的“率”这个字AI总唱错,我就用“帅”来代替,但是生成结果是听不出来的。

Lyrics:保持状态 表 忍耐,不惧怕失败

Lyrics:保持状态 表 忍耐,不惧怕失败

2、如果字唱错了,但是对这一段的生成结果很满意,不舍得丢掉,该怎么办?我用了一个比较笨的办法,就是把唱错的这段自己重新录音,然后用UVR5把AI歌手的干声素材提取出来,使用RVC训练出一个声音模型,变成AI歌手的声音(完了我成替身了?),最后再进行简单的剪辑。

自己录的音01

自己录的音02

二、简单混音

demo出来后,有一些小细节我不是很满意,所以简单做了一点混音,没有用到什么专业的宿主软件,都是在剪映完成的。

比如intro的voice sample那里我觉得有点单薄,就多加了一轨,提升声音的空间感和厚度。

还有从唐僧“我的乖徒儿....”开始的那段,我觉得背景太空了,就分离了一段riff加了进去。

vocal变声(未完成)

前面提到,我最初的想法是用师徒四人的声音演绎这首歌的,但是用RVC浅尝了两种办法后,效果都不是很满意,最终考虑到deadline就干脆舍弃了。这里还是把“猴哥”和“唐僧”的部分放出来给大伙听听,就当小彩蛋吧。

第一种方法,训练声音模型,然后直接变声。问题是变声后AI味儿太重,丢失了猴哥和唐僧的强调。

第二种方法,训练声音模型,自己录rap,然后再变声。问题是需要我在录音的时候,尽量模仿还原出猴哥和唐僧的特点和感觉,这个涉及到专业的配音技巧,实在超出我的能力范围了....

还有八戒和沙僧的声音我也训练了,但是文件丢失了,总之效果也不是很理想。

这里我想聊聊效果不好的原因,玩过sovits、RVC的小伙伴应该知道,变声效果完全取决于训练素材。去年AI孙燕姿之所以效果那么好,能惊艳到大家,也是因为训练了大量孙燕姿的歌曲,涵盖了不同音域、不同曲风的干声。而我收集的西游记素材全部来自86版电视剧,只有师徒四人说话的声音,没有他们唱歌或说唱的素材,所以就不太像。如果当时AI孙燕姿唱的是周杰伦的双节棍,大家也不会觉得很像,因为孙燕姿没有唱过类似的歌,不符合大家对孙燕姿歌声的固有印象。

不过《西游不能停》还是用到了一点AI变声技术的,比如前面提到的修音,还有outro那里如来佛祖的声音。算是最后的倔强吧😑。对了顺便提一句,如来这里的台词本来是想致敬“黑神话悟空”的,不过好像大家都没get到🤣

制作MV

就目前的AI展现出来的能力来看,完全由AI催生出的全新赛道和应用领域很有限,数字分身可能算一个吧,这一点和互联网很不一样。AI的合理应用更多是对既有行业的赋能提效。所以我的个人观点是,不为了用AI而用AI,只用AI做它更擅长的事情。比如《西游不能停》MV的制作,我是用86版西游记电视剧的素材一点一点剪出来的,这耗费了我大量的时间,远没有text to video、image to video来得快,因为我觉得MV需要大量的人物动作和情节去帮助音乐表达,并且这些熟悉的画面能帮观众更快的代入进音乐内容,所以我选择不用AI。

当然AI的进步是飞速的,相信用不了多久,就会出现Sora或其他更好的工具来满足创作者更多元化的表达需要。

到这我的分享就结束了,抱歉拖了这么久才更完,再次感谢AI春晚和WAY TO AGI提供的平台,以及超多小伙伴的帮助和鼓励,2024我争取创作更多的好音乐和教程。欢迎大家找我交流、找我唠嗑,我的微信:metalwenlong,我向你salute啊!