InstantStyle:一张参考图,风格整个世界的
原创 金色传说大聪明 赛博禅心 2024-04-08 21:46
写在正文之前
海辛 Hyacinth
🎵 Morph studio
海辛 Hyacinth
🎵 Morph studio
最近经常见到的一个问题:“国内 AI 什么时候能追上国外?”其实在我的视线范围内,华人研究者在这个领域贡献了快一半以上的研究成果,而且 AI 开源社区里非常核心的技术方案:ControlNet,AnimateDiff,LCM,IPAdapter,instantiD..清一色的都是华人作者,而且都很年轻。 世界不是一个离我们很远的舞台,我们就是舞台中重要的一部分。
正如海辛所言
这些登上舞台的华人
他们在风浪中远航
在波涛中踏浪
无所畏惧
执笔绘卷时代
于是有了这个系列
「乘风破浪的少年」
来记录少年们的高歌
本篇是第 1 篇
InstantStyle
只要一张参考图,就可以把任何视频、图片按此风格重新渲染,方案开源,论文公开
▶ 项目: https://instantstyle.github.io/
▶ 论文: https://arxiv.org/abs/2404.02733
▶ 代码: https://github.com/InstantStyle/InstantStyle
给到参考风格画+原内容,输出新内容
干了啥
在 AI 画图的时候,很多人都会直面一个问题:希望能够按照某个艺术风格,稳定的出产作品。
以我为例,特别喜欢各种沙雕和抽象的画风,比如我的图片文件夹:
很沙雕!越看越喜欢!
按以往的做法,如果希望风格稳定,需要训练一个 lora,这太过繁琐。
InstantStyle 带来了截然不同的玩法:只需要提供一张参考图就够了。
举一些例子:
对此,吃瓜群众们表示:
海辛🎨
图二我真的好喜欢,把头发改成了五线谱+琴键,让我觉得 AI 真的好懂康定斯基
Simon阿文
天..….没想到 IPA 这老插件还有潜力没被挖掘出来
金色传说大聪明
woc牛逼!
背后的团队
这个工作由 InstantX 团队开发,跟换脸神器 InstantID(https://github.com/InstantID/InstantID)是同一个团队,此外还加入了 ComfyUI 的插件作者 Matteo Spinelli。
InstantX 是一个开放式的研究小组,主要从事一致性生成方面的研究。
我和 Haofan 进行了一些交流,当说到「风格化任务」的时候,Haofan 提出了 2 个关键点
Haofan
首先是「风格属性的定义」是一个欠定的问题,与之前的任务项目,风格本身缺乏唯一的描述和衡量指标,一千个人有一千个哈姆雷特,是相对主观的,同时它涉及了非常繁多的元素,比如色彩、材质、艺术风格、建筑风格等,很难完全解耦
Haofan
同时,此前的方法主要存在两个问题,其中inversion-based的方法往往伴随着风格退化,会丢失图像细节,而另一个问题是很难平衡风格强度与内容泄露。
还提到,经过观察和实验,他们发现了很多有趣的东西,对后续工作非常具有启发性。
Haofan
由于风格的欠定属性,缺乏客观的评价指标,目前风格化相关工作的许多对比是不公平的。作者重点提到IP-Adapter是被低估的,在对比中没有被设置合适的权重参数。
Haofan
CLIP 作为目前普遍使用的特征提取器,图像和文本的特征空间是共享的,这个特殊属性被忽略了。使用CLIP进行图像检索举例,说明文本和图像的CLIP特征是可以相加减的,进而引出一个非常巧妙的做法,既然需要平衡风格强度与内容泄露,为什么不直接从特征层面减去内容信息呢?
Haofan
从CNN到StyleGAN,早年的许多工作都表明,神经网络不同层学习到的信息是不一样的,通过简单的实验证明SDXL上同样存在这样的性质,并发现存在两个特定的层,对风格和空间布局有重要作用。
技术解析
让我们来探究下 InstantStyle 是如何让生成的图片保持一致的风格,通过两个关键的方法: 内容与风格分离 和 只往特定的风格块注入特征 。
内容与风格分离
对一张图片来说,“内容”指的是图片要表达的主体,如一只猫或者一片山水;而“风格”则是给予观者的整体感觉,例如可爱或炫酷。
InstantStyle 利用了 CLIP 技术,通过一个步骤把文字描述的内容提取出来,再通过另一个步骤提取图片的风格。这样,InstantStyle 就能够清晰地区分并独立处理“内容”和“风格”,使得风格的应用更为精准,避免了内容与风格的混淆。
风格分离
针对性风格注入
在深度网络里,有些特定的层特别擅长处理风格信息,比如颜色、质感这些。于是,InstantStyle 就只把风格相关的信息放入这些层,保证风格信息的准确传达,而不会影响到图片的内容。
风格注入
通过结合这两种方法,InstantStyle 能够保证在图片生成的时候,内容风格一致性且准确,且运算简单。
I n s t a n t I D and more..
InstantID 是由 InstantX 团队在今年一月带来的方案,用于保持任务一致性,在国内外反响强大,目前 GitHub 星标已经接近万。
▶ 项目: https://instantid.github.io/
▶ 论文 : https://arxiv.org/abs/2401.07519
▶ 代码: https://github.com/InstantID/InstantID
▶ 体验: https://huggingface.co/spaces/InstantX/InstantID
Instant ID
写在最后
本期受访:Haofan
素材提供:海辛、阿文
请允我记录这个时代,撰写你的故事
接受任何的开发者和研究者的投递
可在后台留言,简要介绍并留下联系方式
不用理会回你话的 AI
会人工看的