金属文：AI春晚《西游不能停》创作过程分享

📣

非常兴奋能和300多位小伙伴一起完成这次AI春晚的创作，整个过程可以说是相当crazy了。不仅在岁末伊始整了个大活，还认识了很多有趣又有料的新朋友，我自己也挑战了花10天（业余）时间借助AI完成一首歌完整的制作流程。

《西游不能停》可能不是最好或完成最快的节目，但绝对是参与人数最少的一个了。AI的加持给了每一位独立创作者和超级个体无限的可能。听说很多小伙伴对创作幕后和技术实现感兴趣，所以今天我在这做一个完整的分享。

音乐是我为数不多可以热爱终身的事情，新的一年我会继续创作出更多更好的作品，也欢迎志同道合者来找我一起玩，我们一起keep rocking🤘！

AI对音乐创作的改变

过去一首歌的制作流程通常是这样的：

作词与作曲
编曲
录音
混音/修音
母带

每一个环节都要花费很长时间，并且需要多个角色共同协作才能完成，对于没有专业背景的普通音乐爱好者更是望尘莫及。现在AI把很多环节进行了合并，如果不考虑制作MV，1个人不到1天完全可以创作出一首不错的歌曲（当然，那些粗制滥造的网红口水歌也可以）。

当然，创作音乐这件事并不是越快越好，音乐是一个创作者的表达，融合了创作者的阅历、思想、审美和经验，很多好的作品都是经过了多年的打磨才面世，从而成就了一个又一个永不过时的经典。这就是我为什么厌恶所有所谓的“网红神曲”，因为你看不到任何表达，言之无物的作品就是没有灵魂的垃圾。

有点扯远了....

AI可以帮音乐创作者以极高的效率把一个idear以demo的形式呈现出来，迅速搭起一首歌的骨骼框架，然后把更多的精力投入到歌词、音色、节奏这些更有个人表达的部分。比如我在创作《西游不能停》时，把大量的时间都花在了歌词的创作和flow的打磨上，而beats和rap全部用AI生成，只用了寥寥几分钟的时间。

并且，AI让我看到了一种全新的创作思路。

以乐队来举例，过去一支乐队创作一首歌时往往要先有一个动机，这个动机可能是一句歌词，一个和弦进行，一段旋律或者一个节奏型，然后乐队成员再通过jam等方式逐渐给作品添血添肉。

而Suno、Stable Audio、网易天音这样的AI工具，让你可以通过自然语言的描述，在短时间内生成一首编曲、歌词或demo，大幅降低了创作门槛，让普通音乐爱好者也有了自己创作的可能。

当然AI也有许多不足和缺陷，比如生成结果的不可控、保真度低等，这些不在今天的讨论范围内。

创作过程

灵感与动机

年前有部很火的电影叫《年会不能停》，狠狠地戳中了打工人的心，于是我就想到创作一首关于职场的说唱歌曲，并且。但我又不想做的太无聊太主旋律，这时想到了一个很早关注的B站up“倒悬的橘子”，他在2021年吧，做了一个火出圈的鬼畜西游题材的说唱系列叫"大唐gang"，西游记里的师徒四人代表了很典型的职场关系，于是我创作了这首《西游不能停》。

作者在3年前制作"大唐gang"的时候AI远没有像今天这样普及，和其他的鬼畜视频一样，这首歌中的rap是作者用素材一个字一个字剪出来的，可以想象工作量有多爆炸。所以我最初的想法是借鉴AI孙燕姿，用sovits将师徒四人的声音还原，用这种方式来提效，但很可惜由于素材和技术问题最终没有实现，这个到后面讲。

总之我确定了大概的创作思路和工作流：首先用gpt辅助我写出歌词，然后把词丢给suno完成了beats和说唱部分，最后用86版西游记的素材剪辑成了最终大家看到的MV。

歌词

说唱近几年我听的并不多，印象还停留在中学时期听的Eminem、50Cent、2PAC、SNOOP DOGG这些OG，但歌词对说唱的重要性一直没变过。

首先贴个完整歌词

🎤

悟空🐵：

这西天的妖魔鬼怪全被俺踩脚下

再来段 freestyle 把你秃头念爆炸

别再废话规划可怕没用的大计划

不如回家在小小的花园里面挖呀挖呀挖

职位是你包装的假慈悲

俺的火眼金睛准得像2014的马刺队

for three! 我求你别再瞎指挥

我只想封佛牌位功成身退再活八十岁

唐僧👨‍🦲：

我的乖徒儿你耍嘴皮子溜得飞起

为师的紧箍咒 nine nine six 给你开会议

老实说吧经书贫僧不是自己取不起

而是免费的劳动力 generally 更有性价比

听说隔壁那个悟空能变超级赛亚人

反观你呢小学肄业勉强会念白话文

别再叽叽歪歪胡搅蛮缠给我带坏人

待遇差吗反思下吧自己有没认真工作呢

八戒🐷：

想当初俺天蓬元帅在天庭久战沙场

嫦娥姐姐仙女妹妹都叫声街头霸王

自从取经一菜一汤饿得俺面色蜡黄

朝思暮想翠兰姑娘那一手九转大肠

都笑俺老猪是个废物吃不得苦中苦

西天的道路遥远的印度我自有我抱负

尊嘟假嘟妖魔怪物逃不出九尺钉耙的速度

毕竟前路的女施主还需要俺老猪来保护

悟净🧔：

yo put your hands up here is 沙僧 AKA 悟净

虽然solo不行可人家很正经

还有那些杠精同事diss我的发型

等我吹瓶燕京再来怼你怼得发病别停

磨人的小妖怪和女王的裤腰带

不过是我师徒修行路上下酒菜

保持状态表率忍耐不惧怕失败

才能苦尽甘来最终等到幸福如来

如来：

即见如来为何不拜！

下面带大家回顾一下创作歌词的过程，如何将想法变成具体的歌词：

确定主题

紧扣“西游记”和“职场”主题，体现师徒四人的人设和冲突（比如唐僧用紧箍咒惩罚悟空，八戒的贪吃和好色），同时加入一些职场热梗（比如996，画饼），这一步我用chatgpt的browsing进行总结给我提供灵感；

增加趣味

为了让歌词更加有趣，我又让大模型搜集了一些2023年的网络热梗，融合进歌词。

创作思路

写说唱一般有三种方法：

先定flow，再填词。有一些公式可以套，比如将一个小节拆成1个2分音符和2个4分音符，再把词填在每个音符上，适合新手和freestyle，可以参考这个视频

先写词，再优化flow。适合比较确定的歌词内容，可能还需要有一定对flow的积累和感觉。比如在4/4拍下这句歌词可以是这样的：

歌词	这西天的妖魔鬼怪全被俺踩脚下	flow	1/4	2/4	3/4	4/4	1/4	2/4	3/4	4/4
歌词	这西天的妖魔鬼怪全被俺踩脚下	flow	空	这西天的	妖魔	鬼怪	全被	俺踩	脚下	(延音)

或者，你可以直接把歌词丢给SUNO这样的AI工具，它会自动转化为一首说唱歌曲，也是我这次采用的思路。不过经过我的大量测试，生成的flow质量与你的歌词和输入格式有很大关系，这个放在后面讲。

歌词、flow一起搞。在创作歌词的同时就融合了flow，这会是AI生成式音乐未来的发展方向。

押韵技巧

这里用到一个小工具“押韵大师”：https://rap.zlxiang.com/，可以根据上下文输入单词，轻松创作出双押、三押。

其实现在的中文大模型也是懂押韵的，但还无法直接生成很炸裂的多押，但是不妨碍为我们写词提供灵感，未来随着大模型的进化，或者接入押韵大师这样的外部能力，说不定可以做出一个专业的写词GPTs，这也是我最近正在研究的比较好玩的事情。

生成音乐

音乐生成使用了大名鼎鼎的文生音乐模型Suno，教程可以参考Keen和陈浚嘉的这两篇教程：

Suno 操作指北 V1

Suno 操作指北 V2

这里只分享我个人的一些心得。

Suno和大语言模型一样都具有很强的随机性，并且输入（prompt/tag）质量往往决定了输出（生成音乐）质量，想要避免无谓的抽卡，让生成结果无限地靠近自己的想法，就需要使用一些提示词技巧。

在自定义模式（Custom Mode）下，有两个主要的输入窗口：音乐风格（Style of Music）与歌词（Lyrics），我们分别来讲

音乐风格（Style of Music）

这里需要你填写一些tag来描述整首音乐的风格和感觉，多个tag之间用“,”进行分隔。

根据suno的官方文档和我的测试，可以识别的tag有：

音乐类型/流派：如ROCK、FUNK、JAZZ、EDM、K-POP等
人声/乐器：如clear female vocal、electric guitar、drums、cello等
情绪/氛围：如pure weepery、epic、Christmas Vibes、action packed等
节奏：staccato、4/4 time、build up等
场景：如movie soundtrack、jingles、wedding band
混响：recording studio、concert hall、underwater等
其他和声/音效等：如3-part harmony、cartoon sound effects、droning

不支持音乐家/歌手、bpm（每分钟节拍数）。我猜测这可能和他们给音乐打标的方式有关吧。

这些tag你可以自由搭配，加在一起就形成了整首歌的约束条件，接下来Suno会在这些约束下去生成音乐。比如《西游不能停》中我填写的是hiphop, trap, 4/4 beats, Phonk Beats，这样生成结果会是一首迷幻电子trap感觉的说唱歌曲，而不是西海岸说唱的感觉。

hiphop, West Coast, 4/4 beats

hiphop, trap, 4/4 beats, Phonk Beats

歌词（Lyrics）

这里除了可以填写歌词，还可以加上丰富的Metatag（元标签）来帮助suno更好地理解你的想法。比如intro、verse、chorus、bridge、outro这些段落化的描述，或者你希望某个段落用什么乐器、什么节奏、是否加入和声等。虽然已经有了很多的Metatag可以帮助你进行提示，可惜的是，suno目前仍然不能完全遵循你的想法去创作音乐，这就是AI生成式音乐无法避免的随机性。

那么，有没有办法让生成结果朝我们希望的方向倾斜呢？据我观察是可以的。

还是以说唱歌曲为例，歌词的质量往往决定了rap的flow质量，换句话说，好的词可以让AI生成好flow的概率大大提高。如果你把随便写的一串没有任何节奏的词丢给它，生成结果大概率是灾难级的，比如下面这个极端的反面例子，我把不停重复的“恐龙抗狼”丢给AI，哪怕你把积分都抽完，也不会得到满意的结果

（友情提示：听完记得洗耳朵）：

所以在创作歌词的时候，最好通过断句让它看上去自带节奏，同时加入一些节奏的变化，使flow不要过分单调。

除此之外，我发现suno似乎还可以通过输入格式控制说唱的flow，举个例子，

（注意听“别再废话规划可怕没用的大计划”这句，大概在18s左右）：

上面两首的歌词格式是这样输入的：

别再废话

规划

可怕

没用的

大计划

我觉得这几个词的flow不理想，我想让它再连贯紧凑一些，于是我删掉了换行符，变成下面这样再次输入：

别再废话规划可怕

没用的大计划

再来听一下修改后的结果（大概在15s左右）：

很明显结果向我希望的方向倾斜了。

《西游不能停》中类似的优化有很多，并且最终只抽了两次卡就得到了我满意的音乐，虽然suno没有办法像谱子那样100%精准地控制节奏，但是活用符号进行断句，再结合Metatag，就可以最大限度的控制生成方向，同时保留随机的乐趣。

续写歌曲

这首歌在年前创作的时候suno还是V2版本，单次最多只能生成80s的音乐，没法唱完所有的歌词，所以我们需要进行续写，web端在我们想要续写的歌曲这里点击“continue from this song”即可，在discord中则是点击“⏩continue 1/2”的icon。这里吐槽一下suno的web前端页面，实在是太黑了啥都看不清😅

web端

Suno on discord

如果续写的时候正好卡在一个段落的中间，有两个细节需要注意，一是不要在lyrics的最前头加任何Metatag，否则会被当做一个新的段落，丢失掉连贯性；二是如果第一段的结尾最后一个字哪怕没有唱完，只发了一点点音，续写的时候也直接从下一个字开始就好。

还是举个🌰，《西游不能停》的第一段在八戒的“我自有我抱负”这句结束，并且“负”字只发了一半的音，那么续写的时候直接从“尊嘟假嘟....”开始。你可以直接跳到Part 1的最后和Part 2的开始听。

Part 1

Part 2

生成式AI音乐就像一个黑匣子，你永远不知道下一个生成的东西是惊喜还是惊吓，但这也是它好玩的地方，比如你可以告诉它生成一首“既快乐又悲伤”，或“古典又前卫”这种看似矛盾的音乐，没准一首优秀的实验音乐就诞生了。

混音/修音

其实也谈不上混音，就是demo生成出来后，对一些小瑕疵和细节做修改。

一、中文发音错误

suno对中文的支持并没有其他语言那么好，有很多字是念不对的，甚至有时候用国语唱到一半，突然切换到了粤语，我严重怀疑suno把“国语”和“粤语”歌曲放在一起训练了。要解决这个问题有两个办法：

1、用更常用的同音字代替输入给suno，《西游不能停》中有多处用到了这种办法，比如我发现“表率”的“率”这个字AI总唱错，我就用“帅”来代替，但是生成结果是听不出来的。

Lyrics：保持状态表率忍耐，不惧怕失败

率.mp3

Lyrics：保持状态表帅忍耐，不惧怕失败

帅.mp3

2、如果字唱错了，但是对这一段的生成结果很满意，不舍得丢掉，该怎么办？我用了一个比较笨的办法，就是把唱错的这段自己重新录音，然后用UVR5把AI歌手的干声素材提取出来，使用RVC训练出一个声音模型，变成AI歌手的声音（完了我成替身了？），最后再进行简单的剪辑。

修音前01

自己录的音01

修音后01

修音前02

自己录的音02

修音后02

二、简单混音

demo出来后，有一些小细节我不是很满意，所以简单做了一点混音，没有用到什么专业的宿主软件，都是在剪映完成的。

比如intro的voice sample那里我觉得有点单薄，就多加了一轨，提升声音的空间感和厚度。

混音前.mp3

混音后.mp3

还有从唐僧“我的乖徒儿....”开始的那段，我觉得背景太空了，就分离了一段riff加了进去。

加入前.mp3

加入后.mp3

vocal变声（未完成）

前面提到，我最初的想法是用师徒四人的声音演绎这首歌的，但是用RVC浅尝了两种办法后，效果都不是很满意，最终考虑到deadline就干脆舍弃了。这里还是把“猴哥”和“唐僧”的部分放出来给大伙听听，就当小彩蛋吧。

第一种方法，训练声音模型，然后直接变声。问题是变声后AI味儿太重，丢失了猴哥和唐僧的强调。

变声.mp3

第二种方法，训练声音模型，自己录rap，然后再变声。问题是需要我在录音的时候，尽量模仿还原出猴哥和唐僧的特点和感觉，这个涉及到专业的配音技巧，实在超出我的能力范围了....

录音+变声.mp3

还有八戒和沙僧的声音我也训练了，但是文件丢失了，总之效果也不是很理想。

这里我想聊聊效果不好的原因，玩过sovits、RVC的小伙伴应该知道，变声效果完全取决于训练素材。去年AI孙燕姿之所以效果那么好，能惊艳到大家，也是因为训练了大量孙燕姿的歌曲，涵盖了不同音域、不同曲风的干声。而我收集的西游记素材全部来自86版电视剧，只有师徒四人说话的声音，没有他们唱歌或说唱的素材，所以就不太像。如果当时AI孙燕姿唱的是周杰伦的双节棍，大家也不会觉得很像，因为孙燕姿没有唱过类似的歌，不符合大家对孙燕姿歌声的固有印象。

不过《西游不能停》还是用到了一点AI变声技术的，比如前面提到的修音，还有outro那里如来佛祖的声音。算是最后的倔强吧😑。对了顺便提一句，如来这里的台词本来是想致敬“黑神话悟空”的，不过好像大家都没get到🤣

制作MV

就目前的AI展现出来的能力来看，完全由AI催生出的全新赛道和应用领域很有限，数字分身可能算一个吧，这一点和互联网很不一样。AI的合理应用更多是对既有行业的赋能提效。所以我的个人观点是，不为了用AI而用AI，只用AI做它更擅长的事情。比如《西游不能停》MV的制作，我是用86版西游记电视剧的素材一点一点剪出来的，这耗费了我大量的时间，远没有text to video、image to video来得快，因为我觉得MV需要大量的人物动作和情节去帮助音乐表达，并且这些熟悉的画面能帮观众更快的代入进音乐内容，所以我选择不用AI。

当然AI的进步是飞速的，相信用不了多久，就会出现Sora或其他更好的工具来满足创作者更多元化的表达需要。

到这我的分享就结束了，抱歉拖了这么久才更完，再次感谢AI春晚和WAY TO AGI提供的平台，以及超多小伙伴的帮助和鼓励，2024我争取创作更多的好音乐和教程。欢迎大家找我交流、找我唠嗑，我的微信：metalwenlong，我向你salute啊！