跳转到内容

InstantStyle:一张参考图,风格整个世界的

原创 金色传说大聪明 赛博禅心 2024-04-08 21:46

写在正文之前

海辛 Hyacinth

🎵 Morph studio

海辛 Hyacinth

🎵 Morph studio

最近经常见到的一个问题:“国内 AI 什么时候能追上国外?”其实在我的视线范围内,华人研究者在这个领域贡献了快一半以上的研究成果,而且 AI 开源社区里非常核心的技术方案:ControlNet,AnimateDiff,LCM,IPAdapter,instantiD..清一色的都是华人作者,而且都很年轻。 世界不是一个离我们很远的舞台,我们就是舞台中重要的一部分。

正如海辛所言

这些登上舞台的华人

他们在风浪中远航

在波涛中踏浪

无所畏惧

执笔绘卷时代

于是有了这个系列

「乘风破浪的少年」

来记录少年们的高歌

本篇是第 1 篇

InstantStyle

只要一张参考图,就可以把任何视频、图片按此风格重新渲染,方案开源,论文公开

▶ 项目: https://instantstyle.github.io/

▶ 论文: https://arxiv.org/abs/2404.02733

▶ 代码: https://github.com/InstantStyle/InstantStyle

给到参考风格画+原内容,输出新内容

干了啥

在 AI 画图的时候,很多人都会直面一个问题:希望能够按照某个艺术风格,稳定的出产作品。

以我为例,特别喜欢各种沙雕和抽象的画风,比如我的图片文件夹:

很沙雕!越看越喜欢!

按以往的做法,如果希望风格稳定,需要训练一个 lora,这太过繁琐。

InstantStyle 带来了截然不同的玩法:只需要提供一张参考图就够了。

举一些例子:

对此,吃瓜群众们表示:

海辛🎨

图二我真的好喜欢,把头发改成了五线谱+琴键,让我觉得 AI 真的好懂康定斯基

Simon阿文

天..….没想到 IPA 这老插件还有潜力没被挖掘出来

金色传说大聪明

woc牛逼!

背后的团队

这个工作由 InstantX 团队开发,跟换脸神器 InstantID(https://github.com/InstantID/InstantID)是同一个团队,此外还加入了 ComfyUI 的插件作者 Matteo Spinelli。

InstantX 是一个开放式的研究小组,主要从事一致性生成方面的研究。

我和 Haofan 进行了一些交流,当说到「风格化任务」的时候,Haofan 提出了 2 个关键点

Haofan

首先是「风格属性的定义」是一个欠定的问题,与之前的任务项目,风格本身缺乏唯一的描述和衡量指标,一千个人有一千个哈姆雷特,是相对主观的,同时它涉及了非常繁多的元素,比如色彩、材质、艺术风格、建筑风格等,很难完全解耦

Haofan

同时,此前的方法主要存在两个问题,其中inversion-based的方法往往伴随着风格退化,会丢失图像细节,而另一个问题是很难平衡风格强度与内容泄露。

还提到,经过观察和实验,他们发现了很多有趣的东西,对后续工作非常具有启发性。

Haofan

由于风格的欠定属性,缺乏客观的评价指标,目前风格化相关工作的许多对比是不公平的。作者重点提到IP-Adapter是被低估的,在对比中没有被设置合适的权重参数。

Haofan

CLIP 作为目前普遍使用的特征提取器,图像和文本的特征空间是共享的,这个特殊属性被忽略了。使用CLIP进行图像检索举例,说明文本和图像的CLIP特征是可以相加减的,进而引出一个非常巧妙的做法,既然需要平衡风格强度与内容泄露,为什么不直接从特征层面减去内容信息呢?

Haofan

从CNN到StyleGAN,早年的许多工作都表明,神经网络不同层学习到的信息是不一样的,通过简单的实验证明SDXL上同样存在这样的性质,并发现存在两个特定的层,对风格和空间布局有重要作用。

技术解析

让我们来探究下 InstantStyle 是如何让生成的图片保持一致的风格,通过两个关键的方法: 内容与风格分离 只往特定的风格块注入特征

内容与风格分离

对一张图片来说,“内容”指的是图片要表达的主体,如一只猫或者一片山水;而“风格”则是给予观者的整体感觉,例如可爱或炫酷。

InstantStyle 利用了 CLIP 技术,通过一个步骤把文字描述的内容提取出来,再通过另一个步骤提取图片的风格。这样,InstantStyle 就能够清晰地区分并独立处理“内容”和“风格”,使得风格的应用更为精准,避免了内容与风格的混淆。

风格分离

针对性风格注入

在深度网络里,有些特定的层特别擅长处理风格信息,比如颜色、质感这些。于是,InstantStyle 就只把风格相关的信息放入这些层,保证风格信息的准确传达,而不会影响到图片的内容。

风格注入

通过结合这两种方法,InstantStyle 能够保证在图片生成的时候,内容风格一致性且准确,且运算简单。

I n s t a n t I D and more..

InstantID 是由 InstantX 团队在今年一月带来的方案,用于保持任务一致性,在国内外反响强大,目前 GitHub 星标已经接近万。

▶ 项目: https://instantid.github.io/

▶ 论文 : https://arxiv.org/abs/2401.07519

▶ 代码: https://github.com/InstantID/InstantID

▶ 体验: https://huggingface.co/spaces/InstantX/InstantID

Instant ID

写在最后

本期受访:Haofan

素材提供:海辛、阿文

请允我记录这个时代,撰写你的故事

接受任何的开发者和研究者的投递

可在后台留言,简要介绍并留下联系方式

不用理会回你话的 AI

会人工看的