白马：6000字超详细复盘！《AI你·南京》AIGC城市宣传MV全流程制作解析

🔗 原文链接： https://mp.weixin.qq.com/s/s3ZcpWGq...

原创吴溪源白马与少年 2024-05-06 19:02 江苏

在五一节前，我们联合中国江苏网运用AIGC技术制作了一条南京的城市宣传片——《AI你，南京》。

这条MV播出后反响不错，视频号上的点赞评论很热烈，在抖音上的南京榜也一度排到热门第四。

我这个公众号写AIGC的内容也有一年多了，累计原创文章一百多篇，在这个不断学习与探究的过程当中，我对AI的认识也从最初的好奇到震惊，然后到逐渐平静。虽然现在每天还是会被各种新出现的技术所冲击，但是会越来越多的去思考AI到底能为我们做什么，有哪些是可以真实落地的应用。今天我就来复盘一下《AI你，南京》这条音乐MV的整个制作流程，希望给大家带来一些帮助。

这条片子一开始也是受到了央妈播出的《爱我中华》的启发，通过AIGC的视角来展现了一个既熟悉而又有些不同的中国，所以，我们也想按照这个思路来展现一下富含着历史文化底蕴的六朝古都南京。

首先是这个“ 熟悉感 ”是必须要有的，你不能完全依靠AI天马行空的想象来绘制一个人们根本不认识的南京，所以我们要想办法来复现一些南京已有的元素，哪怕是不能百分百还原，也要通过一些标签和概念让人们一看到就能联想起来。然后呢，片子里又要体现出一些“不同”，因为如果你只是再现出一些场景，那和实地去取景的传统拍摄流程就没有区别了，所以我们一定要在体现地标的基础上融入ai的想象力。

有了这个思路之后，我就定义要做一条AIGC全流程的南京城市宣传片，尽量减少人工的直接修改，可以通过提示和命令来指挥AI去创作，看最终能达到一个什么水准的作品。

# 01

文案创作

一开始，我们打算用旁白朗诵的方式来做这条片子，类似《舌尖上的中国》的那种感觉，这就对文案会有比较高的要求。

但是如果你直接要求GPT去写这段文案的话，它给的结果会比较平淡，因为它并不知道你要写这段文字的前因后果，也不清楚你的喜好和拍摄风格，所以想要得到好的结果，我们需要把需求提得更具体一些。

于是，我利用360浏览器的字幕提取功能，捕捉了一下《爱我中华》的视频文案。

接下来，分别让kimi和gpt进行分析和学习，这是让AI能按照我们的预期进行写作的一个好的方法。它并不是简单的模仿，而是去理解目标的写作风格，并融会贯通。

Kimi

ChatGPT

我写文案的时候通常会同时开kimi和gpt两个窗口，来对比它们的结果，我发现在对中文的理解和写作能力上，kimi的表现还是要更突出一些。毕竟是国产大模型，本土化将是我们最大的优势。

做完文案分析之后，我们就可以让AI按照此风格去写作了，这次创作的稿子就比一开始的要好很多。两个AI的作品各有千秋，我决定稍作调整，把这两段整合一下。

Kimi

ChatGPT

在调整阶段，我们首先要让文案读起来更顺口，所以我挑选了一些语句让它单独修改。比如“钟山风雨起苍黄，江南佳丽地，金粉六朝都”这一句，我希望能更押韵一点，于是在我的提示下，kimi将其改为了“钟山风雨起苍黄，古都烟云梦犹长”，虽然有一些拼接的痕迹，但是我觉得对于AI来说，能完成到这样也是不错的了。毕竟对于不是作家不是诗人的普通人，要如此快完成这种水准的输出还是很难的。

文案整理完之后，就可以让AI输出简单的画面分镜了，这样能让我们看到一个比较直观的构想。

很多时候，从1到2比从0到1要轻松很多。

Kimi

# 02

歌词创作

文案做到这一步，接下来就是要给朗诵配音来确定视频的时长和分镜数量了。但是我试了几个剪映里预设的AI语音之后，发现效果还是很难达到真人解说那种包含情感的抑扬顿挫，我觉得用AI进行纯解说风格的朗诵还是有些平淡了。

而刚好，最近suno的出现给音乐圈带来了一些不小的震撼，所以我转念一想，干脆直接为南京写一首歌吧，然后给歌曲制作一部MV，这样整个视听语言的层次会丰富很多。

所以，我直接将之前写好的那段文字复制给AI，让它进行歌词改写和歌曲取名。还可以附加定义一下歌词风格和时间长度，让它有一些方向。

Kimi

ChatGPT

两相比较，这一次我更喜欢GPT写的歌词，因为我可能会更想结合一些现代感的歌曲风格，比如rap或者R&B之类的。而kimi写的那段词对仗工整，会更偏向传统一些，可能不适合现代的曲风。

我在gpt写的这版歌词上，经过一些修改定稿了最终的这版歌词。

悠悠金陵风，古韵今犹存，钟山风雨起，金粉六朝魂。龙蟠虎踞地，文采风流情。梦开始之处，南京故事行。

走过历史长廊，触摸时间痕迹，秦淮夜色下，灯火映繁华。夫子庙旧梦长，儒韵千古传，石头城波光里，岁月永流转。

紫金山巅，翠竹青松，守望着这座城的古老与青春。明孝陵石象镇守，中华门城墙巍峨，玄武湖碧波荡漾，紫峰厦彩霞星河。一桥飞架通南北，一城繁华映山河。

南京，南京爱你的每一砖每一瓦，南京，南京爱你的每一山每一水，南京，南京爱你的每一个落日与晨曦。南京，你是我的诗，我的远方。

# 03

歌曲创作

歌曲创作，我使用的是最近大火的suno。（https://suno.com/）

我们可以在里面欣赏别人制作的音乐，也可以在这里挑选自己喜欢的曲风进行创作。

在创作板块，我们可以直接通过提示词来创建一首纯音乐。

每次创作可以生成两首歌曲，消耗10点积分，网站每天都有50点积分赠送，可以免费创建十首歌曲。

时长为两分钟，还可以进行extend扩写，如果觉得歌曲不错的话就可以下载下来。

听听看，很难想象一个完全不懂乐理的人能在一分钟之内创作出一首这种水平的音乐。

除了纯音乐之外，我们还可以创作带歌词的歌曲。选择自定义模式，这边可以填入歌词、歌曲风格和主题，模型版本我们选择最新的v3就可以了。

但是要想写出好一首歌曲，只是简单的输入歌词是不够的。因为一首优美的歌曲也是需要分为很多不同层次的，它可能有节奏变化、有大调小调、有曲式结构、有和弦进行等等等等，我们要利用ai去创作更丰富的歌曲，也需要去了解这些基本的概念才能更好的指挥AI。

在这里，我们回到gpt当中，让它用前奏、副歌、主歌、桥段和尾奏的结构帮我们对歌词做划分。

然后我们就可以将划分好的歌词放到suno当中，歌曲风格采用“中国风，古筝配乐，加上R&B元素”的提示词进行编写。

在刷了十几首歌之后，我选定了这首作为《AI你，南京》的歌曲。由于时长只有两分钟，歌曲并没有唱完，所以我又对这首歌进行了扩写。又经过反复几次的挑选之后，我将选定好的扩写的部分和原曲在剪映中做了一下后期的融合，最终我们的这首歌曲就制作完成了。

# 04

分镜创作

歌曲创作完成之后就是要给视频出分镜脚本，但是这个分镜脚本和真正影视拍摄里的分镜还不太一样。影视里的分镜是给拍摄提供依据的，是剧本和实际拍摄之间的一个桥梁。但是由于AI视频制作的特殊性，我们其实是没有拍摄的实际过程的，而是通过图生视频来直接生成，所以我们的分镜就直接决定了最终视频呈现效果的好坏。

我们现在就需要根据音乐来进行画面的生成。画面的生成我分成了三个大类：一类是有歌词的部分，我打算用midjourney来进行生成，它的画面美感是顶级的；第二类是无歌词的部分，比如长达20秒的前奏，这里我打算使用SD来制作南京12个区的字体设计，包括主标题的设计；第三类是转场，比如主歌进副歌的时候，需要让镜头之间更有设计感，我选择使用deforum来进行制作。

虽然有了歌词，但是我还是需要一些具体的画面描述，所以接下来，我就让gpt帮我按照每段歌词生成了一系列的mj提示词。

当然这些提示词只是一个大概的画面参考，具体的还是需要我们去调整和编写。

比如开头的部分，歌词并没有体现，所以我们需要我们自己去构思。我在创作这个歌曲的时候就想过融入古筝这个传统乐器，所以在开篇的时候我就想过通过一名弹古筝的女子来引入。

为了增加神秘感，我希望画面的开篇是女子的背景，然后镜头慢慢的拉进。

但是在mj出图的过程中，虽然画出了背对画面的女子，但是古筝的位置一直不对，甚至还出现了反弹古筝的诡异姿势。

于是我打算曲线救国，首先使用对语义理解最准确的DALL·E3来绘制出我们需要的构图。

然后再使用垫图的方式给到mj，就画出了我想要的构图。

接下来还需要近景和特写做切换，为了保持人物和色调的一致，使用了sref和cref的命令来统一风格。

这张手部的弹琴特写，仅使用提示词也无法得到，采用了同样的垫图法进行生成，不过后期因为时长的缘故没有放进正片中。

正片当中的图片根据歌词的大意进行输出就可以了，由于毕竟是AI生成，所以对于南京地标性的景点是不可能完美复现的，所以我尽量只用局部或者是一些意向图来表现。

可以让人感受和联想到南京的一些景点和文化符号，但是又不那么直白，这应该就是AI表达和视频拍摄上的区别。

# 05

字体设计

接下来是对南京12个大区的名字设计，本来这也是属于分镜的一部分，不过由于在制作上这一块确实也花费了相当多的时间，所以单独分出来讲解。

这一部分用到的主要工具是Stable diffusion，因为它有很强的控制能力，可以根据我们给出的文字轮廓来进行符合画面风格的设计。

这里我们先准备好所有要做的字体的平面图像，这个平面图会决定我们最终的构图。我一般会喜欢用黑底白字的图片，因为在controlnet中的depth模型会把白色识别为前景，有助于我们文字的突出。

我们可以将图片放入controlnet当中来，我通常会用到canny来控制线条，depth控制景深关系，segmentation控制融合度，IP-Adapter控制画面风格。当然这些控制不需要同时使用，而是通过你对图像的一个构思来进行取舍，同时通过权重来影响控制程度。

前期准备完成之后，就要开始构思每一幅的画面，南京的每一个区都各有特色，玄武区湖光山色相映成趣、秦淮区桨声灯影流水潺潺、建邺区高楼林立气势雄伟、鼓楼区紫峰阅江光影悠悠、栖霞区枫满山峦叶红似锦、雨花台区烈士陵园庄严肃穆、江宁区湖熟稻田金浪滚滚、浦口区珍珠涌泉清澈秀美、六合区“石中皇后”雨花斑斓、溧水区无想山水翠峦叠嶂、高淳区老街深巷青砖灰瓦、江北新区科创基地智领未来。

结合这些不同的特征，我们需要选择不同的大模型，对画面做不同的描述词，然后选择搭配不同的lora进行微调。

比如江宁的这一张，我希望这个字是出现在油菜花田中的，于是我使用了4个和油花菜以及大自然相关的lora与提示词配合进行输出， controlnet 使用了seg 和 depth与油菜花田进行融合。

正向提示词：Masterpiece,UAV low-altitude top view,(ups and downs, rape blossoms, golden rape fields, lakes, rivers, clear, reflection, flowers, amazing plant wonders:1.5),mobile form,(shot through rapeseed angle:1.5),(no house, no building:1.5) Master composition,aesthetic artistic conception,aesthetics,telephoto,close-up,depth of field,award-winning photography,Sony FE GM,Ultra HD.<lora:大自然的鬼匠神工_v1.0:0.4>,<lora:油菜花写真_v1.0:0.4>,<lora:油菜花开_v1:0.4>,<lora:花摄 1.5_v1.0 (wd14):0.4>

但是有的场景并不一定能有对应的lora，比如六合的这一张。六合是雨花石之乡，但是雨花石这个元素在国外大模型中是没有的，所以我在 controlnet 使用IP-Adapter进行垫图，从而将雨花石的元素融入到了画面之中。

正向提示词：Masterpiece,UAV low-altitude top view,mobile form,(a font composed of colorful stones,in clear water,water grass,vegetation,riverbank:1.2),aesthetic artistic conception,aesthetics,telephoto,close-up,depth of field,award-winning photography,Sony FE GM,Ultra HD.,,,JingGuan,,<lora:大自然的鬼匠神工_v1.0:0.6>,<lora:石头水景15_v1:0.3>,<lora:【晶石-湖泊,海洋】国风山水_v1.0:0.6>

12个区我就不一一分析了，AI造字主要还是要理解字和图像的关系，才能找到最适合的参数。以下是完整的12个区的字体设计。

# 06

视频制作

视频制作中主要用到的工具是runway。（https://runwayml.com/）

runway厉害的地方在于它可以对我们的图生视频有更详细的控制，比如说可以控制镜头的移动。

通过推镜头的方式，让人仿佛置身在场景当中。

我们还可以通过笔刷的方式来控制画面元素的移动，让镜头的发展方向能按照我们想要的进行。

这样就能做出船在江中穿行，云朵在空中流动的画面。

通过这些方式的组合应用，我们需要将所有的分镜全部制作成动态视频。当然考虑到最终的视频的衔接，在制作的时候要思考上下镜头的运动关系。

# 07

转场制作

这条片子里的转场主要用到的是SD当中的deforum，也就是去年很火的瞬息全宇宙效果，它可以通过不断画面迭代，完成从一幅图像向另一副图像的过渡。

比如下面这个转场，我们从一本摊开在桌子上的书本慢慢将镜头推进，当接近到书本的时候，将镜头翻转向下，进入到书本之中，来引出南京的一场旅程。

我们可以在deforum中设定初始的图片。

然后通过对镜头运动打上关键帧的方式来控制摄影机的进行，比如我希望镜头一开始是推进的，那么前30帧就是平移Z轴的正向移动，从40帧开始转向书本，那么就会有一个3D翻转X的正向值。依此类推，这个工具的难点在于所有的控制都是数值化的，所以你需要在大脑中去想象镜头的运动，然后模拟成数值写下来。这样做肯定没有办法一致性就做好的，所以需要不断的测试和调整。

然后还要通过提示词来确定不同帧数时画面的变化，这样就能呈现出进入书本后画面变幻为城市建筑的效果。

还有一个用处就是在两张图片之间做一个转场过渡，这种时空穿梭的感觉是非常棒的。

我们可以在引导图像这里放入首尾两张图片的地址，来实现中间过渡帧的变化。

当然，采用瞬息全宇宙的工作流时，中间的过渡画面帧是不可控的。比如在处理紫峰大厦的转场场景时，中间的一栋大楼上就一直出现sony的标志，我想可能是因为我的提示词中使用了“sony相机拍摄”这样的描述。

所以我只能化身肝帝，把视频导入到ps当中，一帧一帧的修补，才最终没有让画面出现纰漏。

# 08

高分放大

视频片段制作完成之后，有些画面的分辨率不是很高，或者是帧数不高会显得很卡顿，所以我这边再引入了一个对视频进行高分辨率放大的流程。

使用Topaz Video AI对视频的分辨率进行放大，还可以将30fps插帧变成60fps，让视频变得更为流畅。

# 09

剪辑合成

所以的素材都准备完毕了，接下来就是来到剪映里面进行合成了。

按照音乐的节奏点对视频片段进行摆放，镜头切换的时候要卡在鼓点或者重音的上面，过渡转场的地方可以再加上一些剪映预置的特效，让整个视频更为流畅。最后添加字幕，渲染输出就可以了。

至此，使用AIGC工作流的整条《AI你，南京》的城市宣传MV就制作完成了。虽然说一开始想要使用AI来完成所有工作，但是最终还是少不了人的环节，创作不易，边做边思考，也对AIGC有了更深的理解。

在这里感谢新华日报、中国江苏网各位领导的信任，让这条片子能在省级媒体上发表，也很感谢大家对这条片子的认可和喜爱。

最后，是我自己关于AIGC创作的一些感想。客观的来说，片子是不够精致的，音乐也是有瑕疵的，画面也有很多可以更好的地方。但是作为一个新兴的技术，我们从去年一直目睹着它的飞速进步，似乎永远都停止不了赞叹的声音。

“ AI一天，人间一天 ”，在这个圈子里人经常会发出这样的感叹。如果大家看过一年前AIGC产出的内容，再看看今天图像、音乐、视频如雨后春笋般的出现，就能体会得到为什么我们会如此看好AIGC的前景，它进步得实在太快了。我甚至都无法想象再过五年甚至十年之后，世界会被改变成什么样子。

之前有很多敌对的情绪一直弥漫在人和AI之间，但是就目前而言，AI绝不是为了替代某一工种而出现的，它是为了辅助我们更高效地完成目标而存在。我们的世界仍然需要作家、需要音乐家、需要画家、需要设计师、需要导演、需要摄影、需要程序员，我们需要真正的人来攀登各行的顶峰，这是现在的AIGC所无法做到的。

但是好的作品，我们不能只看结果，也要去看过程。 AIGC 可以让一个完全不懂音乐创作的人在十分钟之内创作出一首 7 0分以上的歌曲， AIGC可以让一个只有几个人的团队在短短几天之内做出以前可能要一个月才能完成的视频，AIGC 可以让一个人可抵千军万马。

这，就是我们如此相信AI的理由。以上。

-END-

我的SD课程《Stable Diffusion零基础入门宝典》可在CCtalk上收看，课程持续更新中，干货满满，想学习的朋友长按下方图片识别二维码，可以进入购买链接>>>