跳转到内容

上海国际AIGC大赛第三名—《嘉定汇龙》复盘

🏆

2024上海国际AIGC创作大赛-提示未来-第三名

原文: 导演罗翀-公众号

🏆

主要创小伙伴:

编剧/导演:罗翀

统筹:小田

AIGC画师:三思、源SiYuan、咖菲猫咪、Petter桐、komu、小田、布丁、麻袋Zzz

剪辑:布丁

配音:张昱

正如火药改变了战争的方式,印刷机也改变了思想传播的方式。——温德尔·菲利普斯

作为上海元宇宙的先行示范区,由嘉定政府举办的AIGC比赛吸引了全国各地的高手参加,上千件作品由中国AIGC领域的20余位评委打分产生。

搜索“提示未来上海国际AIGC”可以在官网看到,前十名的作品我感受到的都是震撼,逐个点开,都是策划精巧、制作精良的佳作。很多参赛的高手都是非常成熟的广告公司、久负盛名的设计师团队。从故事的理解,到AIGC技术的炫酷运用都是中国一流的。

1、组队

我们组队的方式简单直接,是在上海AIGC大赛群里自行组成的。起初我有一个想法,今年是龙年,而嘉定有一个有传说故事的景点叫做汇龙潭,抱着这样的一个念头,就在大群里吆喝了一声。

可能也是因为之前做出过一些比较成熟的成片,得到了小伙伴们的响应,便很快拉起了一个十人的虚拟组织在线团队。

其中有很多小伙伴都是从前得过不少比赛优胜的,三思、小田、源,他们都是身经百战的“老师傅”,所以说当有了一个好点子之后,宇宙中是有一种气场的,相互的吸引力走到了一起。就是这样自然结合之后,发现我们这支团队主要来自于离谱村、waytoAGI两个社群,所以说社群里大家互相学习进步是非常好的渠道。

接下来的两周,我们十个人的团队一起大家用业余时间晚上跑AI,完成了这部新技术加持的宣传片。

  1. 审题

审题是创作的起点。

我们小组开始了三四天一碰撞的在线会议,通过远程文档的方式一起协作。

我感觉大家愿意相信我的这个方案的根源就是一个共识:

“我们为什么不做一个能在嘉定广场上直接播出的官方宣传片?”

我们做到了像素级的逐字逐句的审题,这是一个强组织意志宣传的命题作文。传递组织声音,传播组织文化。

于是我们在第一次在线会议上就达成了共识:我们决定将嘉定的历史、现代和未来三者结合,展现其作为一座历史悠久而又现代化的城市的独特魅力。我们选择了“龙”这一象征贯穿全片,以体现嘉定的文化底蕴和现代活力。

1、开头30秒的重要性

其实我们的片子已经做完了之后,我突然意识到我们可能需要把前30秒再重做一遍。

曾经在很多纪录片评比中的获奖经历,以及后来做过一些纪录片比赛的评委,前30秒至关重要。我们希望能将整体的表达和技术的高地,都在前面30秒做出呈现。

我们首先想到的是stable diffusion艺术字(三思、源SiYuan、咖菲猫咪、Peter桐、动态:小田):

源SiYuan(左)、Peter桐(右)

咖菲猫咪

三思:

三思是中国做stable diffusion艺术字中高手中的高手,具体的教程可以看WaytoAGI中她的具体教学,核心就是让AI根据我们提供的框架来生成对应的艺术形态,我们根据每个地名的特色产业,或是找寻lora、或是自己炼制lora,有的是用即梦的通用模型生成。

艺术字之后,我们希望能用一个一镜到底来完成全片内容和思想的浓缩,同时在这个AIGC比赛的技术维度中,展现我们的技术水平:

本段主要是由Peter桐完成。我们通过空中俯拍嘉定的古老街景,呈现其历史厚重感。接下来,镜头转向现代都市的繁荣景象,再以一段AI生成的未来场景结尾,预示着嘉定光明的未来。这样的布局不仅紧扣主题,还在短时间内激发观众的兴趣。

音乐的选择也为开头部分增色不少。从古风音乐到现代电子乐的转换,与画面的切换完美契合,增强了整体的氛围感。

开场部分结合应用了comfyui转绘(就是由实拍画面转换成AIGC动画),

steerablemotion(Steerable Motion是一个用于通过批次图像控制视频的ComfyUI节点),

runway文生视频,图生视频等多种AI技术.

最后再通过合成剪辑的方式拼合起来.

  1. 多人在线工作流

以下是我们小组分享的核心:

我们的工作流,赏心悦目。

十个人的小组,大家素未谋面,却要完成一个相当有强度的高度协同工作,并不容易。

我们从一开始就意识到了这一点,就坚持无论如何要把在线文档整理好。小田参与过多个打比赛的项目小组,所以他对在线文档的理解和整理是大厂级别的。

在这篇在线文档中,大家就能看到我们整个项目多人、多环节推进的过程:

大家可以看到,从1)分镜头的脚本;2)文生图;3)图片的筛选;4)图生视频);5)视频的筛选;6)视频超分到4K

每一步都井井有条,如果这些都是靠口喷(大厂里把只动嘴的沟通叫做口喷),是难以为继的。甚至可以说这份在线文档的推进,是我们项目大家伙劲往一处使的根基。并且我们每个小伙伴都非常专业,根据文本来理解画面,用AI跑图。

十个人的手跑出的不同的图,最后能够做到画风相对一致、运镜符合科学规律,是并不容易的。

5、AIGC跑图的硬功夫

在《嘉定汇龙》的制作过程中,我们充分利用了AIGC技术,从图像生成到视频制作,都实现了前所未有的效率和质量。

图像生成与优化

  • 初步生成:我们使用DALL-E 3和Midjourney(MJ)进行初步图像生成。DALL-E 3以其强大的文本识别能力帮助我们快速生成符合意图的画面,而MJ则通过垫图功能(--Sref和--iw组合)确保图像的风格一致。
  • 图像优化:D3和MJ跑不出来的图,我们用Stable Diffusion(SD)用于图像的细节处理,尤其是局部重绘,例如调整人物的手部细节。通过magnific.ai工具对图像进行超分处理,进一步提高画质。

视频生成与合成

  • 图生视频:图生视频主要市面上几个工具:可灵、即梦、Luma,核心方法就是穷举,不断地抽卡,在抽卡的过程中不断调整prompt,比如设计人物的动作、辅助镜头的运镜。
  • 运镜效果:在视频制作中,我们结合使用了Runway的文本生成视频和Steerable Motion技术,实现了复杂的镜头运动。这些技术让我们的镜头更具动态感和视觉冲击力。
  • 镜头拼接:我们采用首尾帧图生视频技术,将多个短镜头拼接成连续的长镜头,提高了画面的连贯性和流畅度。

复杂场景的生成

对于复杂场景,我们结合了即梦和可灵,实现了许多动态画面。例如,在生成汽车变成龙的场景时,我们使用了即梦的首尾帧功能,结合动态效果,达到预期的视觉表现。

跑图是考验审美的,我们组的Komu、咖啡猫咪、源SiYuan、Zzz这些都是设计师,设计师对于画面的审美质量超越了宣传片标准的。

6、多人协同的剪辑

布丁是一位优秀的TVC剪辑,因为得益于我们在线文档的规整,视频块输出的很到位。剪辑工作进行的非常顺利,布丁用了两个晚上就剪出了一版能看的版本。

为了能多人协同剪辑,我们放弃了惯常使用的Final cut和premiere,使用剪映的最大原因,是它可以多人无缝剪辑同一个工程。

每天剪完了之后大家互相上传一下到云工程里,就能在不同电脑里同样打开,解决了旧时代剪辑软件的沉疴。

央视的张昱老师也被我们打动,倾情献声进行配音。

这里也是一个小经验,我认为在于目前AI配音其实已经到了能读电子书的程度,但是真的用来制作一个宣传片,还是欠火候的。对于主题的情感,表达,还是需要一个真人才能完美演绎。

  1. 团队合作与创作心得

因为经常做一些AI短片,所以会有一些朋友、同事经常来问我该怎么学习。

我的回答都是要先去学一下一些基础的教程,这些在视频网站上有,也可以去报一些培训班。但是最锤炼技术的,还是去和社群的小伙伴一起组队打比赛,在这里你才能真的看到高手们的秘方。(prompt如下图)

而且,秘方也不是一成不变的刻板,而是面对不同命题、复杂环境,AIGC的高手们能够指哪打哪的经验。

比如命题是:工厂、芯片、机械、医药、地球、太空……

不像多如牛毛的1girl美女模型那么现成,可是片子里就是需要这些题材,该怎么办?

(AI模型里数量最多的就是美女模型,关键词:1girl,浩如烟海 。而工业领域的模型凤毛麟角)

  1. 技术的挑战与解决方案

尽管AIGC技术为我们的创作带来了极大的便利,但也面临一些挑战。以下是我们在使用过程中遇到的问题及解决方案。

挑战1:图像生成的一致性

AI生成的图像在色调和风格上可能会存在不一致的问题。为了解决这一问题,我们通过--serf的指令,prompt关键词的强化(Chinese realistic anime style),使用垫图技术确保风格的一致性,同时利用PS进行后期处理,增强细节。

挑战2:长镜头的流畅性

生成长镜头是AI技术的难点之一。我们通过即梦和luma可以首尾帧,短镜头拼接的方式,避免了AI生成长镜头时可能出现的流畅性问题。

挑战3:视频的动态效果

为了实现视频中的复杂动态效果达到3D建模的水平,我们采用了Runway的文本生成视频和Steerable Motion技术。这些工具使我们能够创建出更多元化和动态的镜头。

写在最后:

从《AI我中华》到各地文旅、政企宣传片,今年以来都在充分运用AIGC技术,赋能文化宣传。

就像故事接龙社区的K老师说,我们的这部《嘉定汇龙》片子脚本流畅,即使不用AI制作,也会是很好的宣传片。

但是AI制作之后,主创团队一下就缩减到了一个人数很少的范围,并且仅仅两周,甚至是大家两周里的晚上的时间(大家日常还要工作,都是晚上用爱发电来跑AI)

而从信息传达的效率观感来看又并没有太大损失,那么以后的城市宣传片,还必须用实拍的方案么?