跳转到内容

爆肝博主 ZHO

🤖

ZHO 是我见过最肝的博主之一,comfyUI 一号园丁

B 站账号:space.bilibili.com/484366804

▶ 小红书主页https://www.xiaohongshu.com/user/profile/63f11530000000001001e0c8

GitHub 主页https://github.com/ZHO-ZHO-ZHO

▶ 推特主页:twitter.com/ZHOZ

▶ 即刻主页: https://jike.city/zho

ZHO 刚刚整理了他所有的工作流合集,一共14大类,36个 (图文+视频),全是精品,也只有精品

▶ 下载地址:github.com/ZHO-ZHO-ZHO/ComfyUI-Workflows-ZHO ▶GPTs:https://chat.openai.com/g/g-B3qi2zKGB-comfyui-assistant

他的 B 站 ComfyUI 系统性教学堪称典范

1 小时发展史从论文到应用,我看了至少 3 遍,没事就拿出来品读一下。当你懂得一些历史发展和原理之后,生成式技术才能掌握的更加炉火纯青

接下来我会列出 ZHO 第一时间就部署的各种项目(真的是第一时间,因为一个新的不错的项目发布,都是从他那里知道,并且一定是第一时间耕耘到 comfyUI 生态里)

目前【Zho】的内容:

1资讯

2论文

3自己项目

4测试

5工作流/思路分享

6理论+教程

分布:

1️⃣X/Twitter:第一时间发、内容最全1-5

2️⃣b站:只发3-5和6,专栏+ 1-2

3️⃣小红书:只发部分精选的3-5

4️⃣即刻:同步X

5️⃣GitHub:所有项目

以下是我整理的 ZHO 分享的重要内容,会持续更新

更新记录:

每日简报形式展示

5月1日

【Zho】主体一致性保持的 PuLID 刚刚发布了代码和模型!

PuLID 优势:高速 + 高保真 + 风格迁移更强(对原模型影响小)

可保证插入 ID 前后的图像元素(如背景、光照、构图和风格)的一致性

代码(视频来自项目页):https://github.com/ToTheBeginning/PuLID

模型:https://huggingface.co/guozinan/PuLID

5月1日

https://www.bilibili.com/read/cv34251319/

4月30日

https://www.bilibili.com/read/cv34230289/

4月29日

https://www.bilibili.com/read/cv34206414

4月28日ComfyUI 之旅 一周年

🎉我的 ComfyUI 之旅 一周年! 🤣距离我第一次公开发布 ComfyUI 的内容已经整整过去一年啦! 🚀ComfyUI 从无人问津到跻身主流,这一年见证了太多奇妙的转变与发展!我也从一开始的使用者逐渐转变为开发者,参与了太多精彩的故事! ✨开源世界的闪耀来自于所有创作者智慧的闪光! 🤣so coooooooooooool🤣 🚗这趟旅程是如此的奇妙和精彩! ❤️感谢大家的支持!

https://www.xiaohongshu.com/explore/662deb3800000000040181c9

4月29日

这个具身agent开源项目好玩:https://github.com/thunlp/LEGENT

4月28日

【Zho】再见ChatGPT Plus!

开源免费的 HuggingChat(移动端)推出了自己的“GPTs Store”!直接画图!

前两天刚在说如果 HuggingChat 推出 GPTs 和 DALLE 功能,那我就会放弃订阅ChatGPT

结果今天 HuggingChat iOS 端就更新增加了 Assistant 功能,相当于是 ChatGPT 的 GPTs,目前已经有无数的 Assistant 了 ,并且已经有很多可以生图的 Assistant 了,视频做了演示!

【Zho】🚀我的工作流合集又更新啦!新增了 5 个大类和 10 项工作流!

🔥目前总数的达到了 19类 46项!已获 3K⭐

新增内容:

1⃣5⃣ APISR in ComfyUI(2)

1⃣6⃣ SDXS(1)

1⃣7⃣ CosXL & CosXL Edit(1)

1⃣8⃣ Stable Diffusion 3 API(1)

1⃣9⃣ Phi-3-mini in ComfyUI(2)

项目地址:https://github.com/ZHO-ZHO-ZHO/ComfyUI-Workflows-ZHO

4月28日

umesh老哥提示词又上新货了:a photorealistic image of a small [COLOR] 3D [COMPANY] logo encased in a luxurious traditional mausoleum-style box, viewed from a wider angle that includes other elements of the graveyard. The mausoleum should be elegantly designed, made of white marble. The wider view should show refined, sharp edges and polished surfaces, emphasizing the depth and three-dimensionality of the logo inside, along with tombstones, trees, and a misty graveyard atmosphere

photorealistic image of a small [COLOR] 3D [COMPANY] logo encased in a luxurious transparent box, viewed from an enhanced side angle to better reveal the 3D shape of the logo. The box should be white, exquisitely designed, featuring crystal-clear glass with refined, sharp edges and polished surfaces that emphasize the depth and three-dimensionality of the logo inside.

4月27日

推上又有神级转绘了!

4月27日简报

https://www.bilibili.com/read/cv34155295/

4月26日

【Zho】🏖来了朋友们!闪电般速度的 Phi-3-mini-4k-instruct 可以在 ComfyUI 中使用啦!平替即将收费的 Gemini!

1)支持系统提示词,支持单/多轮对话双模式,支持中文输入自动并输出英文提示词

2)配合 CosXL/Playground 2.5/Animagine XL 3.1 可简单平替 DALLE·3!

2)模型很小,速度很快,性能很强(媲美 GPT-3.5 和 Mixtral 8x7B)

3)开源可商用( MIT 许可),中文表现很不错,可用于 生成/补全提示词 或畅聊人生!

🏖项目地址(已包含工作流):https://github.com/ZHO-ZHO-ZHO/ComfyUI-Phi-3-mini

Phi-3-mini-4k + CosXL 强无敌

4月26日每日简报

https://www.bilibili.com/read/cv34128699/

【Zho】❗️Sora 爆火短片 air head 的幕后❗️

❗️Sora 确实很强,但是让人们了解使用 Sora 制作短片的真实过程更重要!

❗️这篇长文非常非常详细的写了 shy kids 使用 Sora 制作 air head 的过程和各种细节,包括 Sora 的交互、使用、能力和局限,以及如何通过传统工具克服或解决 sora 的局限性,推荐阅读!!!!!!

长文地址:https://www.fxguide.com/fxfeatured/actually-using-sora/

视频来自:https://youtu.be/KFzXwBZgB88

4月25日

https://www.bilibili.com/read/cv34106811/

今日特殊主题:庆祝 WaytoAGI | 通往AGI之路 一周年!

4月24日

【Zho】SD3 写实镜头表现力测试大放送:

🚀今天是第 3 波: Cameras | 镜头:47种

💡对 Cameras 表现的初步结论:

1)对不同专业镜头的理解力/分辨率和细节要强于 SDXL

2)写实能力强于 SDXL

3)画面细节程度和质感强于 SDXL

📌测试参数:

提示词:landscape photography shot with {Cameras}

种子:66

比例:1:1

用时:36 min

积分:305.5 credits

cubiq又有新货要上了

4月24日

【Zho】微软刚刚直接开源了 可在手机端运行的 性能媲美 GPT-3.5 和 Mixtral 8x7B 的 Phi-3-mini 4k和128k双模型,并且是 MIT 许可,可商用

模型地址:

4k:https://huggingface.co/microsoft/Phi-3-mini-4k-instruct-onnx

8k:https://huggingface.co/microsoft/Phi-3-mini-128k-instruct-onnx

4月23日

【Zho】字节推出全新加速框架 Hyper-SD!并直接提供了 ComfyUI 工作流!

1)引入轨迹分段一致蒸馏

2)引入人类反馈学习

3)集成分数蒸馏

Hyper-SD 在 1-8 低步数推理中实现了最佳性能,同时适用于SDXL和SD1.5

用在线 Demo 实测了一下,效果还真不错!

项目:https://hyper-sd.github.io

模型:https://huggingface.co/ByteDance/Hyper-SD

工作流:https://huggingface.co/ByteDance/Hyper-SD/blob/main/comfyui/Hyper-SDXL-Nsteps-lora-workflow.json

在线Demo:https://huggingface.co/spaces/ByteDance/Hyper-SDXL-1Step-T2I

4月22日

全新模型 SD3 艺术表现力测试大放送!

🤣目前正在测试对比 SD3 和 SDXL 的艺术表现力,挑了一些表现不错的发出来! 💡对 SD3 艺术表现的初步结论: 1)SD3 风格理解力(是否更贴近风格)、艺术表现力(美观程度)和细节均强于 SDXL 3)发散程度会受限(越真越不易发散) 4)偶尔会出现多图现象

对艺术家风格很友好

SD3对单图内同一角色的一致性保持很不错

特征基本都对上了

非著名角色测试:

SD3 交叉对比图测试 左黑猫白背景 右白猫黑背景 太强了

4月20日

【Zho】Llam3 + 联网!

啥也别说了,HuggingChat 网页版已经支持联网了!Llama3 + 联网 这还要啥自行车!

开源牛逼!

https://huggingface.co/chat/

4月20日 VBench 榜单

日报:https://www.bilibili.com/read/cv33940512/

【Zho】究竟哪种视频生成模型更好?看 VBench 榜单就行了!

目前 VBench 最新的榜单已经支持了图生视频 (I2V) 模型的多维评估,可以直观的看到各类模型在不同维度的得分情况

目前 DynamiCrafter-1024 排在第 1 名,另外有趣的是 SVD-XT-1.0(旧) 的得分竟然比 1.1(新) 高

https://huggingface.co/spaces/Vchitect/VBench_Leaderboard

4月19日

日报:https://www.bilibili.com/read/cv33917452/

【Zho】腾讯 ELLA 团队今天放出了官方版的 ComfyUI 插件:

ELLA:用于增强提示词理解能力的 LLM Adapter

目前仅提供 ELLA-SD1.5 模型,支持 ControlNet,并提供了示例工作流

项目地址(图片来自项目页):https://github.com/TencentQQGYLab/ComfyUI-ELLA

【Zho】🤣上电视了朋友们,SD3(API) in ComfyUI 详细使用教程!

OlivioSarikas 制作了如何在 ComfyUI 中使用 Stable Diffusion 3(API)的教程视频(用的是我昨天做的插件),从安装到使用,非常详细,还与 Midjourney 和 SDXL 做了详细对比!

视频地址:https://youtu.be/SBkLY703Xs4?si=xZCv2R5wUcBIKxMg

插件地址:https://github.com/ZHO-ZHO-ZHO/ComfyUI-StableDiffusion3-API

4月18日

“一键”加速 SD 和 SVD!OneDiff v1.0.0正式发布 支持Playground v2.5 支持ComfyUI-AnimateDiff-Evolved 支持ComfyUI_IPAdapter_plus 支持Stable Cascade 提高了VAE的性能 为OneDiff企业版提供了量化工具 https://github.com/siliconflow/onediff/wiki

4月22日

【Zho】OpenAI 大神教你从头构建视频生成扩散模型!

必看文章《What are Diffusion Models?》的作者

Lilian Weng 最近又写了关于视频扩散模型全新的博文:《Diffusion Models for Video Generation》

推荐阅读时间:20 min

https://lilianweng.github.io/posts/2024-04-12-diffusion-video/

翻译版本

https://mp.weixin.qq.com/s/C8JoiTHwW7T-g66EBPcfDg

4月18日

SD3 API ComfyUI节点测试成功

huggingface上也搭建好了:

https://huggingface.co/spaces/latentcat/sd3-api

4月18日

【Zho】Hugging Face 推出了 iOS 手机端的 Hugging Chat App!这下可以方便地在手机上使用各种开源 LLM了!

目前提供了6款模型:

command-r-plus

zephyr-14b

mixtral8x7B

gemma-1.1-7b

nous-hermes-mixtral8x7B

mistral7B

初步体验了一下,交互和速度都非常好!

App地址(外区):https://apps.apple.com/us/app/huggingchat/id6476778843

4月18日

【Zho】ComfyUI Stable Diffusion 3 API 已更新为 V1.5 版:图生图 和 SD3 Turbo 都可以正常使用了!

注意:

1)SD3 图生图模式不支持选择比例

2)SD3 Turbo 模型不支持负面提示词

【Zho】🤣来了朋友们!Stable Diffusion 3(API)已经可以在 ComfyUI 中使用了!

✅目前支持多种比例的 SD3 文生图(turbo和图生图还调试中)

🚗使用方法:先申请API,然后填入config.json文件即可(每账户25免费积分),SD3 每张图6.5积分(比较贵)

项目地址:https://github.com/ZHO-ZHO-ZHO/ComfyUI-StableDiffusion3-API

SD3 API ComfyUI节点测试成功

4月17日

卧槽!!!!!!SD3 率先通过 API 来了!!!!!!!!!!!

Stability AI 刚刚 发布了 Stable Diffusion 3 和 Stable Diffusion 3 Turbo!现在已经可通过 Stability AI 开发者平台 API 使用

SAI 计划在不久的将来通过会员资格提供模型权重

详情:https://bit.ly/3W43FjY

4月17日

【Zho】同样基于 DiT 架构的最新模型 PixArt-Σ 发布了在线 Demo!

实测了一下,6K 直出啊卧槽 5984*5984,单张图 14.9M,属性匹配也准确,灰色内搭,红色大衣,紫色眼睛,金色头发,佩戴耳饰,确实惊艳!!!

😭不过一直都还没时间在 ComfyUI 中测试

Demo:https://huggingface.co/spaces/PixArt-alpha/PixArt-Sigma

AI 高端人才大量转移向产业界:2011 AI 领域 PhD 去向为 40.9% 产业 vs 41.6% 学术界,但到了 2022 年,已经变为 70% 产业 和 20% 学术了。并且从产业流向学术界的比例更是下降到 7%

4月18日

这个分层精确图像编辑项目强啊:https://design-edit.github.io/

AutomaticCFG 插件

https://github.com/Extraltodeus/ComfyUI-AutomaticCFG

像素化的这个非AI的算法

也好用:https://github.com/KohakuBlueleaf/PixelOE 有对应的插件:https://github.com/A4P7J1N7M05OT/ComfyUI-PixelOE/tree/main

4月16日

【Zho】既然 Adobe 出招了,那咱开源社区也不能落后啊!做了换钻石镜头在 ComfyUI 中的实现:

💎模型选择:Playground v2.5

✨提示词完善(可选):Gemini 1.5 Pro

🎨重绘:Differential Diffusion

🎬视频生成:SVD 1.1

4月16日

【Zho】cubiq IP-Adapter ComfyUI视频上新了:线稿上色+风格迁移,赶紧学起来!

视频地址:https://www.youtube.com/watch?v=gmwZGC8UVHE

4月15日

Mira:迈向Sora般的长视频生成的一小步

Mira: A Mini-step Towards Sora-like Long Video Generation

https://mira-space.github.io/

4月15日

Adobe上了premiere pro

https://www.youtube.com/watch?v=6de4akFiNYM

4月15日日语版GPT-4

OpenAI Japan专门为日语微调了

4月10日

4月9日

看到一个对IPA改造升级的项目:https://lcm-lookahead.github.io/

AIWarper大神又上新货了:https://x.com/AIWarper/status/1777351783477563452

4月8日

【Zho】又有新模型了!

Stability AI 在 Hugging Face 上发布了 CosXL 和 CosXL-Edit 模型:

CosXL 与 Playground v2.5 类似,也用上了 EDM,可以实现 PG2.5 提到的鲜艳色彩和高对比度图像

Edit 模型属于 InstructPix2Pix 模型,用于实现提示词+图像精确编辑

模型(仅研究):https://huggingface.co/stabilityai/cosxl

ComfyUI 已经直接支持了,并给了工作流:https://comfyanonymous.github.io/ComfyUI_examples/edit_models/

4月7日

【形迹寥寥】instant ID和comfyui作者联名了paper《InstantStyle : Free Lunch towards Style-Preserving in Text-to-Image Generation》

Code: https://github.com/InstantStyle/InstantStyle

Project Page: https://instantstyle.github.io/

4月6日

【Zho】新工作流设计思路分享:实现换皮肤 + 打光,适合动漫、游戏场景等

1)基础:Line2Normalmap + Normallighting

2)加速:利用 SDXL-Lightning 模型加速,实测下来 4步模型性价比最高(同时兼顾速度和质量),比仅使用SDXL速度提升约6倍

3)换皮肤:利用 ControlNet 实现

4)叠合+打光:Normallighting

5)more:图生图细化等

4月6日

【Zho】线稿转法线图 + 重新打光插件 实测

在 ComfyUI 中实测了一下 @tori29umai 制作的 Line2Normalmap 模型 + @TJ16th

制作的 comfyUI_TJ_NormalLighting 插件,效果太棒了! 打光问题解决了那就要迎来新时代了!

Line2Normalmap 模型:https://huggingface.co/tori29umai/SDXL_shadow

comfyUI_TJ_NormalLighting 插件:https://github.com/TJ16th/comfyUI_TJ_NormalLighting

4月5日

【Zho】之前由 @philz1337x 制作的媲美 Magnific AI 的开源放大工具更新了!速度提升了 50%!放大 4倍 现在只需要12s了!

作者制作的 App:https://clarityai.cc/

开源代码:https://github.com/philz1337x/clarity-upscaler

Replicate API:https://replicate.com/philz1337x/clarity-upscaler

接 lora 和 controlnet

LoRA:https://huggingface.co/tori29umai/SDXL_shadow/tree/main

ControlNet:https://huggingface.co/stabilityai/control-lora/blob/main/control-LoRAs-rank256/control-lora-canny-rank256.safetensors ControlNet 的预处理器接 lineart 或者 canny 都可以

4月4日打光的节点

TJ16th已经做了一个可以打光的节点

https://x.com/TJ16th/status/1776088244410843540

4月1日EMAGE

这个项目有意思:EMAGE 可以为输入的音频生成与之同步的面部和身体动作,速度很快,效果很不错! 项目页:https://pantomatrix.github.io/EMAGE/ 在线 Demo:https://huggingface.co/spaces/H-Liu1997/EMAGE Colab:https://colab.research.google.com/drive/1AINafluW6Ba5-KYN_L43eyFK0zRklMvr?usp=sharing

4月1日 ComfyUI-N-Sidebar

ComfyUI 的节点侧边栏 ComfyUI-N-Sidebar 推出了一批新功能,非常好用,简单做了个视频来说明:

1)快捷键:alt+z(开启/隐藏)、alt+x(搜索)

2)节点预览

3)模糊搜索

4)返回顶部按钮

5)设置选项:背景模糊、字体大小、圆角大小、节点框大小、背景透明度、底/顶部空间

6)跟随系统配色

3月31日BiRefNet in ComfyUI

可以同时处理图像和视频的 新版 BiRefNet in ComfyUI 上线了!

BiRefNet 是目前最好的开源可商用背景抠除模型(BRIA AI RMBG v1.4 不可商用)

原版插件: 只能简单输出蒙版,不能抠视频

新版插件:

1)模型加载和处理分离,提升速度(和我之前做的 BRIA RMBG in ComfyUI 插件一致)

2)可以直接输出透明背景的 PNG 图

3)可以直接抠视频

项目地址:https://github.com/viperyl/ComfyUI-BiRefNet

项目地址:https://github.com/ZHO-ZHO-ZHO/ComfyUI-BiRefNet-ZHO

3月30日

这项研究很有意思:TextCraftor,通过微调文本编码器来提高文生图扩散模型的语义对齐和生成质量

1)通过微调 SD 的 CLIP 文本编码器,成功提高了语义匹配度,无需替换其他文本编码器

2)允许不同文本编码器插值生成更多样化的图像,增加可控性

3)与UNet微调相互独立,可组合使用提升生图质量

3月30日 SDXS-512-0.9 模型

ComfyUI 本体已经支持了新的一步模型 SDXS-512-0.9 模型

质量一般,速度飞快,和上次我自己 diffuser 简版速度没区别,都是比普通的 SD1.5 快16.7倍

使用方法:

1)模型:sdxs-512-0.9、clip_h、vae-84000(或任意1.5模型)

2)分别放入models中的unet、clip、vae里

3)euler + sgm_uniform + cfg1.0

工作流:https://github.com/ZHO-ZHO-ZHO/ComfyUI-Workflows-ZHO 模型地址: sdxs-512-0.9:https://huggingface.co/IDKiro/sdxs-512-0.9/tree/main/unet clip_h:https://huggingface.co/IDKiro/sdxs-512-0.9/tree/main/text_encoder vae-84000:https://huggingface.co/stabilityai/sd-vae-ft-mse-original/resolve/main/vae-ft-mse-840000-ema-pruned.ckpt

3 月 29 日

已经有大神把 AniPortrait 的 ComfyUI 插件做好了,感兴趣的朋友可以去玩,我之后也会测试一下,项目地址在:https://github.com/chaojie/ComfyUI-AniPortrait

3月29日

Peter H. Diamandis 采访了最近刚刚辞去 Stability CEO 职务的

@EMostaque讨论了 Emad 辞去 CEO 的原因以及下一步建立去中心化 AI 的计划,完整视频约 1h20min 视频详见:https://youtu.be/e1UgzSTicuY?si=9loIYiyHy7pZ8ErY

3 月28 日Mini-Gemini

Mini-Gemini这个项目挺不错,还能生图,有点低配版gpt+dalle的意思了:https://mini-gemini.github.io/,在线demo:http://103.170.5.190:7860/

又一项提升图像编辑(如重绘)能力的研究:Magic Fixup 1)可以根据用户指定的布局进行逼真的图像编辑,在保留原始图像细节和特征的同时,适应新布局下的光照和上下文 2)使用视频作为监督,通过对相机和主体运行的理解来实现对视角、光照变化的准确适应 https://magic-fixup.github.io

https://huggingface.co/papers/2312.02087

又一项 3D 生成研究:GaussianCube 通过一种高效且结构化的 GS 表示形式,以标准 3D U-Net 作为扩散生成建模的骨干,GaussianCube 实现强大且多功能的 3D 生成 https://gaussiancube.github.io

InterHandGen:专为解决双手互动建模的而设计的新框架 1)将复杂的双手联合分布分解为更易于处理的单手分布建模任务,可以在不与物体近距离交互的情况下,生成合理且多样化的双手形状 2)使用扩散模型和条件化 dropout,有效学习和生成具有高度真实性和多样性的双手互动形态 https://github.com/jyunlee/InterHandGen

之前可以实现视频主体定制化替换的 VideoSwap 项目发布了代码! 不过出于法律考虑,该代码需提交申请才可获得访问权,并且主要用于学术和研究目的 VideoSwap:只需少量语义点就能对齐主体的运动轨迹并实现形状修改,还通过点交互(移除和拖动)来实现各种语义点的对应关系 https://github.com/showlab/VideoSwap

3 月27 日

腾讯也发了 对嘴型的 AniPortrait 项目:https://github.com/Zejun-Yang/AniPortrait

视频来自:https://x.com/_akhaliq/status/1772926152698396709?s=20

3 月 27 日

【Zho】Stable Cascade 使用图像提示词的效果非常好,对于风格参考和迁移非常方便!

今天把 Stable Cascade 的 图像提示词工作流 给补充到 工作流库 里了:

1)Standard 标准版:一张图作为图像提示词

2)Mix 多图版:多张图混合作为图像提示词

工作流:https://github.com/ZHO-ZHO-ZHO/ComfyUI-Workflows-ZHO

可以很巧妙地吸取特征 效果很不错

就是image prompt 或者说unclip 思路 我在理论视频里强调了无数次 还画了分析图

只不过之前的模型效果都不理想 这次sc的效果很好

当时2.1的时候 sai做了unclip模型 然后xl之后sai做了revision 结果刚出来 ipa就出来了 ipa用了vith和vitbigg+adapter

3 月 26 日

emad在和微软CEO交谈

3 月 26 日SDXS-512-0.9

【Zho】实测了一下小米今天推出的 SDXS-512-0.9 一步模型,速度确实快 相较于普通1.5模型20步来说,提升了16.7倍,质量也还行

3 月 25 日深度模型

【Zho】在 ComfyUI 中做了最新三种深度模型可视化对比(T4):

Marigold(10步)🆚DepthFM(2步)🆚Geowizard(10步)

1)细节程度: Geowizard > Marigold > DepthFM

2)深度预估的准确度:Marigold > Geowizard > DepthFM

3)速度:DepthFM(3s)> Geowizard(33s)> Marigold(62s)

其他模型看之前对比

使用插件:

1)Marigold:https://github.com/kijai/ComfyUI-Marigold

2)DepthFM:https://github.com/ZHO-ZHO-ZHO/ComfyUI-DepthFM

3)Geowizard:https://github.com/kijai/ComfyUI-Geowizard

3 月26 日FlashFace

【Zho】又一项主体特征保持的研究:FlashFace

这个细节保持有点强啊,就看代码模型开放之后的实测效果如何了!

1)详细保留参考人脸的特征(如纹身、疤痕,甚至是虚拟角色的罕见脸型)

2)更准的指令遵循,特别是当文本提示与参考图像相矛盾时

3)多角色混合

4)可控换脸

https://jshilong.github.io/flashface-page/

3 月26 日 IP Adapter

【Zho】@cubiq 制作的全新版 IP Adapter ComfyUI 插件 及其 视频教程 上线了!冲鸭!

项目地址:https://github.com/cubiq/ComfyUI_IPAdapter_plus

视频地址:https://www.youtube.com/watch?v=_JzDcgKgghY

kijai做好了champ 简易版ComfyUI 的插件:https://github.com/kijai/ComfyUI-champWrapper

【Zho】好消息!Stability AI 首席技术官兼临时联席 CEO @chrlaf 表示:Stability AI 的开源计划没有改变,仍会努力改进模型,并保持代码和模型的开源!

3 月 25 日DragAPart

好玩项目:DragAPart,可以拖动输入对象的组件,比如开个抽屉啥的,demo:https://huggingface.co/spaces/rayli/DragAPart

来自 DepthFM 作者对 生成式深度模型和判别模型(如depth anything)区别的说明

3 月 25 日

了解的一共三项比较好的研究,都是之前发的:第一项看这条:https://x.com/ZHOZHO672070/status/1763939512403603461?s=20

第二项:https://x.com/ZHOZHO672070/status/1769973470861951065?s=20

第三项也是最好的:https://x.com/ZHOZHO672070/status/1770706055909306785?s=20

3 月 23 日DepthFM 深度模型

【Zho】来了朋友们!!!最新的 DepthFM 深度模型现在可以在 ComfyUI 中使用了!

同时支持生成 图像+视频 的深度图,方便用于重绘或控制,模型又快又好,云上T4,512 60帧视频 2 步深度图生成只需 53s!

还可搭配 YoloWorld-EfficientSAM 灵活分割特定对象高效转绘!

项目地址:https://github.com/ZHO-ZHO-ZHO/ComfyUI-DepthFM

3 月 22 日

【Zho】背景抠除新模型!BRIA RMBG-1.4 的强力挑战者出现了:BiRefNet

在 ComfyUI 中实测对比了一下两者:

1⃣速度:RMBG-1.4 快于 BiRefNet

2⃣主体识别准确率:BiRefNet > RMBG-1.4

3⃣毛发细节:RMBG-1.4 > BiRefNet

4⃣多主体/抽象:RMBG-1.4 > BiRefNet

项目地址:

https://github.com/viperyl/ComfyUI-BiRefNet

https://github.com/ZHO-ZHO-ZHO/ComfyUI-BRIA_AI-RMBG

3 月 22 日

cubiq发话了 新版ipa comfyui插件要来了

3 月 21 日

算有人把ComfyUI节点的侧边栏做出来了,左等右等,等哭了,演示图片来自项目页(吃饭中,一会测) 项目地址:https://github.com/Nuked88/ComfyUI-N-Sidebar

3 月 21 日

【Zho】TCD 🆚 SDXL-Lightning 直观对比

TCD 的 ComfyUI 插件作者终于把黑图问题修复了,现在可以正常出图了!

底模 Playground v2.5

TCD 8步

Lightning 8步

1)速度完全一样(和我diffuser版测试不同不知为何)

2)效果和之前测试结论基本一致(差别不明显,各有千秋,TCD 质感更加偏真实一些,加上有 Gamma 参数可调,会更灵活,Lighting 质感偏“光滑油亮”一些,氛围感略好)

3)底部两行 是TCD 特有的细节调节参数 Gamma 对比

项目地址:https://github.com/dfl/comfyui-tcd-scheduler

3 月21 日

又一项衣服试穿的论文:Wear-Any-Way 还没公开代码

https://mengtingchen.github.io/wear-any-way-page/

3 月21 日

【Zho】随着新技术的不断涌现,很多小伙伴发现需要一些原理层面的知识,这里自荐一下我在去年10月份发布的一系列系统整理视频,围绕 Stable Diffusion 深入浅出的介绍了整个生态的发展和梳理,包括了论文原理和应用技术等多方面内容,分了四集,一共4小时,超5万字内容

系列导览:

1️⃣认识Stable Diffusion、一周年回顾和SD生态圈三方面展开,形成基础认识

2️⃣从AIGC浪潮聚焦到扩散的系统梳理,从理论的角度理解扩散模型如何实现0到1的跨越

3️⃣将围绕SD展开从模型到生态的全面盘点,一起探究SD的创新与未来

4️⃣对各类GUI的盘点、聚焦ComfyUI,从设计到实际操作做全面梳理

系列视频:b23.tv/NVRRqqQ

3 月19 日

【Zho】字节发布了 AnimateDiff-Lightning 模型,现在只需几步就能生成了,玩 AnimateDiff 的朋友快去试试看!!!

模型地址:

https://huggingface.co/ByteDance/AnimateDiff-Lightning

3 月19 日

【Zho】来了朋友们!!!APISR 现在可以直接在 ComfyUI 中使用了,同时支持 图像 和 视频 的放大,包含 2x 和 4x 双模型!

同时,视频放大还分为 Batch 和 Lterative 两种方式,分别适用于 高/低显存!

速度快到飞起!云上T4,256 视频放大4倍,171帧只需50s!!!

APISR 是专门用于 动漫图图像 的超分模型,速度快效果好!

项目地址:https://github.com/ZHO-ZHO-ZHO/ComfyUI-APISR

3 月 18 日

sd3-turbo的论文发布了

https://arxiv.org/abs/2403.12015

3 月 17 日工作流集合

【Zho】大的来了!我的所有ComfyUI公开工作流合集,共14大类,36个(图文+视频):

1⃣Stable Cascade

2⃣3D

3⃣LLM+SD

4⃣Differential Diffusion

5⃣YoloWorld-ESAM

6⃣Portrait Master

7⃣ArtGallery

8⃣InstantID

9⃣PhotoMaker

1⃣0⃣SVD

1⃣1⃣I2VGenXL

1⃣2⃣More

1⃣3⃣TravelSuite

1⃣4⃣WordCloud

项目:https://x.com/ZHOZHO672070/status/1769334181958447469?s=20

https://github.com/ZHO-ZHO-ZHO/ComfyUI-Workflows-ZHO

3 月 17日Sketch to 3D

【Zho】Sketch to 3D!!!

做了一个简单好玩的工作流,可以直接把手绘快速变成 3D 模型

图像模型用了 Playground v2.5 保证图像语义和主体的高质量生成(可以生成主体+纯色背景),3D 生成用了可以秒出的 TripoSR 模型

如果更加追求速度,可以换成 XL-Lightning、TCD 等

工作流:https://github.com/ZHO-ZHO-ZHO/ComfyUI-Workflows-ZHO

1⃣使用模型:

Playground v2.5:https://huggingface.co/playgroundai/playground-v2.5-1024px-aesthetic

ControlNet:https://huggingface.co/diffusers/controlnet-canny-sdxl-1.0

2⃣使用插件:

草图画板:https://github.com/AlekPet/ComfyUI_Custom_Nodes_AlekPet

背景去除:https://github.com/ZHO-ZHO-ZHO/ComfyUI-BRIA_AI-RMBG

TripoSR 3D生成:https://github.com/ZHO-ZHO-ZHO/ComfyUI-Flowty-TripoSR-ZHO

https://www.xiaohongshu.com/explore/65f689b7000000000d00ebc3

3 月 17 日Depth Visualization

【Zho】深度图可视化

发现了一个新出的 ComfyUI Depth Visualization 插件,用它对比测试了 6 种深度算法/模型,可视化的效果非常好,一目了然!

测试了3类对象:卡通人物、画、人像

效果基本分为3档:

1⃣Marigold

2⃣Depth Anything、Zoe Depth Anything

3⃣Zoe、MiDaS、LeReS

插件地址:https://github.com/gokayfem/ComfyUI-Depth-Visualization

3 月 16 日歸藏分享

北大完整的视频转视频项目

https://github.com/williamyang1991/FRESCO?tab=readme-ov-file不用搞复杂的工作流了,一步到位

3 月 15 日

【Zho】ComfyUI 图像/视频 排版可视化,过几天上线!

3 月14 日

【Zho】来了朋友们!Comfy-3D 现在可以在 Colab 上运行了(需要 Colab Pro),直接一键开启!

最近 3D 生成模型也卷起来了,出了不少还不错的模型,不过由于 Comfy 3D 地狱级别的安装难度,所以我专门做了一版 Colab 供大家体验

目前1.0版:支持 CRM、 TripoSR、 Wonder3D、LGM 模型,方便下载完整3D文件

地址:https://colab.research.google.com/drive/17hsO4_ktv_g8-NQhMU3MCV_iXSXB3cWT?usp=sharing

3 月 13 日

comfyui有一版可以使用sreamdiffusion的插件,但是它是diffuser版的,不过速度也很快,你要是就想用streamdiffusion的话可以去用,速度还是很快的:https://github.com/Limitex/ComfyUI-Diffusers

当然实时绘画还有其他好多种模型可以做到

3 月 13 日

之用vl-max和plus一起去简单复现Gen4Gen的思路,vl-max可以直接为对象对话空间位置,直接输出坐标,很方便

3 月 12 日

【Zho】!!!阿里 QWen-VL 系列模型要开始收费啦!!!

刚收到阿里的短信通知,Qwen-VL 系列模型(Plus 和 Max)都将于 3月18日 正式开始收费!

之前使用我做的 QWen-VL in ComfyUI 插件的小伙伴尤其要注意自己的账单!!!

qwen-vl-plus:0.008元/1,000tokens

qwen-vl-max:0.02元/1,000tokens

更多收费标准详见:https://t.aliyun.com/U/SGW1CC

插件地址:https://github.com/ZHO-ZHO-ZHO/ComfyUI-Qwen-VL-API

3 月11 日

【Zho】好玩项目推荐:ComfyUI 中可以养电子宠物啦!

和上次的魔性跳舞猫一样好玩,根本停不下来!鼠标动的时候小狗就会跑起来,会自动跑向喂食的方向

上次看到这个好玩项目的时候代码还有点问题,这次可以用了(喂食苹果的位置代码还是有点小问题,不过问题不大)

项目地址:https://github.com/nathannlu/ComfyUI-Pets

3 月10 日 TCD

【Zho】做了 TCD 在 ComfyUI 里的测试,也与 SDXL-Lighting 8 步模型做了简单对比,详见:

原生匹配插件(会黑图作者还未解决,可以稍等):https://github.com/dfl/comfyui-tcd-scheduler

3 月 10 日LayerDiffuse

【Zho】LayerDiffuse 的 ComfyUI 插件更新了!已经支持了昨天新出的各类模型(特别是 SD1.5 相关模型)!

项目地址:https://github.com/huchenlei/ComfyUI-layerdiffuse

3 月 10 日 ComfyUI-Flowty-TripoSR

【Zho】更新了一版 ComfyUI-Flowty-TripoSR-ZHO 插件和对应的工作流:

1)修改为直接保存3D文件的节点 Save TripoSR

2)拆分了模型加载和采样

3)新增几项基础参数

项目地址:https://github.com/ZHO-ZHO-ZHO/ComfyUI-Flowty-TripoSR-ZHO

全新版本的 LayerDIffusion + TripoSR 工作流:https://github.com/ZHO-ZHO-ZHO/ComfyUI-Flowty-TripoSR-ZHO/blob/master/TRIPOSR-ZHO%20WORKFLOWS/NEW%20V1.0%20LayerDIffusion%20%2B%20TripoSR%E3%80%90Zho%E3%80%91.json

3 月 9 日

DiT架构的模型细节很厉害,这还不是最细的模型,脸部的绒毛细节太好了

3 月 8 日 PixArt-α

【Zho】同样基于 DiT 架构的 PixArt-Σ 今天发布了论文,但还未公布模型,可以先玩一下前身 PixArt-α:

鉴于原本支持 PixArt-α 的 ComfyUI 插件 ComfyUI_ExtraModels 年久失修,无法与最新版的 ComfyUI 兼容,我尝试修改但发现 ComfyUI 重构了很多,就放弃了

我直接做了 Diffuser 版本的插件(C盘空间警告

项目地址(已包含工作流):https://github.com/ZHO-ZHO-ZHO/ComfyUI-PixArt-alpha-Diffusers

3 月 8 日LayerDiffuse

【Zho】LayerDiffuse 新模型发布了! 重点支持了 SD1.5 !!!

1)前景背景联合生成模型,可同时生成前景和背景(XL&1.5)

2)以前景为条件生成背景的一步模型(XL&1.5)

3)以背景为条件生成前景的一步模型(XL&1.5)

4)SD1.5 模型

项目地址:https://github.com/layerdiffusion/sd-forge-layerdiffuse

模型:https://huggingface.co/LayerDiffusion/layerdiffusion-v1/tree/main

ComfyUI-layerdiffuse的作者估计明天就会支持了 也是国内的作者 可以等一下

华为PixArt系列模型用的也是T5

3 月 8 日

海辛和晨然一起搞了个 ComfyUI 插件,在你生成图片/视频时,会随机出现一只猫咪跳舞。

⭐️ 项目地址:https://github.com/jw782cn/ComfyUI-Catcat

⭐️ 这是他们的第一个 ComfyUI 插件,如果你喜欢的话,请在 GitHub 上帮我们点一颗星星。🙇♀️🙇♂️

3 月 7 日

【Zho】今天 ComfyUI 也支持 Stable Cascade 的 Inpainting ControlNet 了!

ComfyUI 作者也在示例页面给出了说明和工作流:https://comfyanonymous.github.io/ComfyUI_examples/stable_cascade/

我自己也整理了一版,分享在:https://github.com/ZHO-ZHO-ZHO/ComfyUI-Workflows-ZHO

说明:第二个 inpainting+composite 是将原图帖回到重绘之后的效果,是非必要项,按需使用

3 月 6 日 ComfyUI Layer style

这位国内的作者把 ps 很多功能都迁移到了 ComfyUI 里,已经有 60 多个节点了,项目是:https://github.com/chflame163/ComfyUI_LayerStyle

3 月 6 日

【Zho】最新版 ComfyUI 支持了一系列 图像形态学 处理:

erode 腐蚀(去除小噪点/分离相邻对象)

dilate 膨胀(填补小洞/连接临近对象)

open 开(先腐蚀后膨胀)

close 闭(先膨胀后腐蚀)

gradient 梯度(膨胀与腐蚀之差)

top_hat 顶帽(原图与开之差)

bottom_hat 底帽(原图与闭之差)

使用方法:

1)更新 ComfyUI

2)右键 image/postprocessing/ImageMorphology

3)接上图像输入和输出即可

3 月 6 日 Canny ControlNet

【Zho】终于来了!!!ComfyUI 已经支持 Stable Cascade 的 Canny ControlNet 了!

使用方法:以 SC 文生图为基础,在 C 阶段加上常规的 CN 节点就好了,CN 模型还是直接下载到 /models/checkpoints 里

SC Canny CN 模型:https://huggingface.co/stabilityai/stable-cascade/tree/main/controlnet

我的工作流会统一分享在:https://github.com/ZHO-ZHO-ZHO/ComfyUI-Workflows-ZHO

3 月 5 日 ResAdapter

【Zho】字节发布了 ResAdapter:

1)可突破模型固有分辨率,生成分辨率和长宽比不受限制的图像

2)与其他复杂后处理方法不同,ResAdapter 直接生成动态分辨率的图像

3)仅 0.5M 的模型就可以处理任意扩散模型的灵活分辨率图像

4)还与 ControlNet、IP-Adapter 和 LCM-LoRA 等兼容

项目地址:https://res-adapter.github.io

3 月 5 日 TripoSR

【Zho】文生 3D!LayerDiffusion 和 TripoSR 简直绝配!!!

由 LD 直接生成透明背景的对象,然后通过 TPSR 转成 3D 模型,实现文生 3D!

我自己也在 ComfyUI-Flowty-TripoSR 的基础上改了一版,增加了背景去除选项、对 RGBA 图像的支持更好,原版更简洁 + 速度略快(不受背景去除影响)

项目地址和工作流:https://github.com/ZHO-ZHO-ZHO/ComfyUI-Flowty-TripoSR-ZHO

更多信息Stability AI 与 Tripo AI 合作发布TripoSR:单图半秒变3D!(附论文)

视频演示:https://www.bilibili.com/video/BV1Er421W7TH/

3 月 5 日 Stable Diffusion 3 的论文来了!

✅划重点:

1️⃣改进现有扩散模型的噪声采样技术,通过将流模型偏向感知相关尺度来训练整流模型

2️⃣提出了一种新的基于 transformer 的文生图架构,对文本和图像使用单独的权重,并实现图和文 token 之间的双向信息流,提升了文本理解力、构图和效果

3️⃣将公开实验数据、代码和模型权重

论文地址:https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf

网页版本 https://stability.ai/news/stable-diffusion-3-research-paper

3 月 5 日 TripoSR 单图半秒变 3D

【Zho】Stability AI 与 Tripo AI 合作发布 TripoSR:单图半秒变 3D!

1️⃣速度快:A100 上仅需 0.5s 就可生成高质量 3D

2️⃣硬件要求低:即使没有 GPU 也可生成

3️⃣模型权重和源代码已开源:MIT 许可,允许商业化、个人和研究使用

项目地址:https://github.com/VAST-AI-Research/TripoSR

Huggingface demo: https://huggingface.co/spaces/stabilityai/TripoSR

Colab & Jupyter Notebook: https://github.com/camenduru/TripoSR-jupyter

Tripo AI 官网 https://www.tripo3d.ai/app

3 月 4 日分享视频

法国老哥 Thibaud Zamora 的新 AI 短片《Milo & Ziggy and the memory machine》真不错:https://www.youtube.com/embed/0f-GpnxHEjg

3 月 3 日

【Zho】终于来了!!!

ComfyUI 本体已经支持 Differential Diffusion(我简称 DD)!!!全面支持 SD1.5、XL、PG2.5、XL-Lightning 等

必须强调:DD 的重要之处在于可以通过梯度精确到像素控制生成了!!!

我设计的工作流均在:https://github.com/ZHO-ZHO-ZHO/ComfyUI-Differential_Diffusion-Workflows

更多玩法参考我之前的测试

使用技巧:

1)本质是基于 Inpainting 重绘工作流

2)更新 ComfyUI,右键 _for_testing/Differential Diffusion 接在模型之后

3)(非必要)蒙版图转为 mask,如果习惯重绘黑色部分,建议接上图像反转 Invert

4)右键 conditioning/inpaint/InpaintModelConditioning 接上图像+mask,接在采样器上

多种类型控制效果示意:

3 月 4 日中文 SDXL

简单测试了一下之前直接支持中英双语的 Taiyi-Diffusion-XL-3.5B 模型,并且与目前我个人比较看好的 Playground v2.5 做了直观对比:

中文支持:双语差异不很明显,中文理解略微差一点点,已经非常好了

语义理解:基本与 SDXL 持平,距离 PG2.5 还有不小差距

生成效果:PG2.5 > Taiyi > SDXL

使用插件:https://github.com/Layer-norm/ComfyUI-Taiyi

模型地址:https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-XL-3.5B

3 月 1 日

【Zho】想尝鲜 LayerDiffusion 但是不想本地安装 Forge?

我做好了一版 Colab 云部署,有 Colab Pro 的小伙伴可以直接去玩了!

地址:https://colab.research.google.com/drive/1oDm4koPDD2pA9HD2bf2sfZ0OUqUnkPGd?usp=sharing

【Zho】最近又测试了一批 ComfyUI 节点,大家喜欢以哪种方式呈现?欢迎给出你的选择!

https://t.bilibili.com/904154658075836419

3 月 1 日 LayerDiffusion

【Zho】想尝鲜 LayerDiffusion 但是不想本地安装 Forge?

我做好了一版 Colab 云部署,有 Colab Pro 的小伙伴可以直接去玩了!

地址:https://colab.research.google.com/drive/1oDm4koPDD2pA9HD2bf2sfZ0OUqUnkPGd?usp=sharing

3 月 1 日

【Zho】LayerDiffusion 能用了!原作者更新了 README ,Forge 版已优先支持了基础的图像生成和图层功能,但是图生图部分尚未完成(作者说一周内),并且给出了详细的说明和示例,还给了一段演示预览视频(图片来自项目库)

项目地址:https://github.com/layerdiffusion/sd-forge-layerdiffusion

模型:https://huggingface.co/LayerDiffusion/layerdiffusion-v1

3 月 1 日

【Zho】简单平替 LayerDiffusion?!

利用 Playground v2.5 纯色背景生成,加上 BRIA RMBG 去除背景,然后再接上我去年做的文字合成节点,就能直接出海报了!

第一阶段生成的图是透明背景的 PNG 格式,然后再连上背景生成作为第二阶段,这样就可以简单平替还没公布代码的分图层模型 LayerDiffusion 了!哈哈哈哈哈哈

使用插件:

1)图像选择:https://github.com/chrisgoringe/cg-image-picker

2)背景去除:https://github.com/ZHO-ZHO-ZHO/ComfyUI-BRIA_AI-RMBG

3)文字合成:https://github.com/ZHO-ZHO-ZHO/ComfyUI-Text_Image-Composite

工作流示意:

3 月 1 日

【Zho】放大模型大 PK:SUPIR(新)⚔️LDSR(最强)⚔️RealESRGAN_x4plus⚔️4x Ultrasharp

测试原图 1024,放大 4 倍,A100,ComfyUI

效果

L>S>U>R(LDSR 还是遥遥领先,细节、光泽)

速度

L 668.98s

S (FP32, tile64) 909.90s

U <1s

R <1s

文件大小

L 27.2M

S 26.1M

U 19.2M

R 14.1M

太太太慢了,谁爱用谁用吧

3 月 1 日

gemini15 太强了,直接上传代码库 已经给写出来了 我一会去跑跑试试

2 月 28 日

【Zho】Playground v2.5 解读、实测与技巧:

1)相比 SDXL 的进步之处:

1⃣使用 EMD 解决:SDXL 无法生成纯色图像、无法将主体放置在纯色背景上,以及自 SD1.5 以来难以生成鲜艳色彩和对比度图像的问题

2⃣更平衡的分组采样策略保证在多种宽高比下生成高质量图像

3⃣引入类似 SFT 对齐策略减少人脸、眼睛、头发等畸形

2)在 ComfyUI 中的使用技巧:

1⃣升级 ComfyUI,下载模型到 。/models/checkpoints

2⃣右键在 advance 里找到 ModelSamplingContinuousEDM,接在 model 之后,实测下来,接不接差别不是太大

3⃣建议采用 dpmpp_2m + karras

4⃣建议步数:20-50

5⃣建议 cfg:3 左右

工作流:https://drive.google.com/file/d/1DKNvhf_4XOfbsDHj7ys5pKasi0F6wLIq/view?usp=sharing

模型地址:https://huggingface.co/playgroundai/playground-v2.5-1024px-aesthetic

https://t.bilibili.com/903125373492920352?

2 月 27 日

【Zho】 ComfyUI 完整代码库是 818654 tokens ,Gemini 1.5 Pro 用了 100s 就把它完全的读取完了…… 太恐怖了…… 然后它就成为 ComfyUI 专家了,这比我当时构建 ComfyUI Assistant 的 GPTs 省事太多了,关键是 ComfyUI Assistant 最后也没能把完整地代码库给全部上传,GPTs 支持不了那么多和大的文件

https://aistudio.google.com/app/waitlist/97445851?hl=zh-cn

2 月 26 日

【Zho】特别提醒:

BRIA AI RMBG v1.4 模型 是非商用许可!!!!!!!!!!!!

自己做项目或开发的小伙伴一定要注意!!!!!!!!!!!

我看到有些项目好像用了这个,很快会有不少人跟进,所以特别提醒一下!!!!

因为我看到宝玉老师发了这个帖子,会有很多人关注到和跟进,所以特别提醒一下

这个 StickerBaker 可能国内还没火,但是很快了,国外已经热度起来了

关键是原作者用了我迁移到 ComfyUI 的插件 我必须得提醒

StickerBaker 是开源的 他也只能开源 但是会有人你懂得

我在项目介绍中专门提到过非商用,还是需要提醒一下

2 月 24 日

【Zho】🤣现在可以单独输出指定蒙版啦!助你轻松实现视频重绘!

🆕YoloWorld-EfficientSAM in ComfyUI 已更新为 V2.0!

🥂新增蒙版 mask 分离 + 提取功能,支持选择指定蒙版单独输出,同时支持图像和视频(V1.0 工作流已弃用)

🤣项目(已包含工作流)地址:https://github.com/ZHO-ZHO-ZHO/ComfyUI-YoloWorld-EfficientSAM

2 月 23 日

强调 QWen-VL-Plus 和 max 的好用

2 月 23 日

stabilityai 把 clipdrop 卖了,卖给了 Jasper

2 月 22 日 SVD

【Zho】stablevideo.com 开放公测!!

当大家都沉浸在 Sora 的惊艳中时,昨天(2.21)SVD1.1 官网正式开放了公测!快去玩!

除了每日 150 个赠送积分外,还新增了积分购买选项,目前提供两种积分包(积分永久有效):

500 积分/$10,约 50 段视频

3000 积分/$50,约 300 段视频

期待各位的大作!🔥stablevideo.com 公测了-群友实测案例

2 月 22 日 FreeControl

【Zho】测试了一下 FreeControl,在无需模型训练的情况下可以做到这样的控制效果已经非常不错了!

但是毕竟不像 ControlNet 等,FreeControl 是引导对齐(图里给了是否引导的对比),所以控制效果还是存在抽卡现象,并且无法完全做到精准控制,最后两张就比较典型

不过由于目前用的是简版插件,条件都是作为图像输入,所以并不清楚是否存在不同条件输入效果是否会更好的情况

个人感觉控制领域对精确性的要求超过通用性

【Zho】freecontrol 的作者回应了控制参数的使用方法和局限性,大家可参考:

2 月 21 日 YoloWorld-EfficientSAM

【Zho】YoloWorld-EfficientSAM in ComfyUI 已更新为 V1.5!

合并了 ComfyUI Manager 和 Impact-Pack 的作者 ltdrdata 提供的 YOLO_WORLD_SEGS 新节点!!!这下更好用了!

图片也是 ltdrdata 提供的:

项目地址:https://github.com/ZHO-ZHO-ZHO/ComfyUI-YoloWorld-EfficientSAM

2 月 21 日 SDXL- Lightning 蒸馏模型

【Zho】字节发布了甚至只需一步就能生图的 SDXL- Lightning 蒸馏模型,需要的步数比 LCM 更低了!

直接支持 comfyui,还给了工作流!

模型和工作流地址:huggingface.co

2 月 20 日 YOLO-World + EfficientSAM

【Zho】搞定了!YOLO-World + EfficientSAM 现在已经可以在 ComfyUI 中使用了!

1)同时支持图像、视频检测 + 分割

2)支持 YOLO-World L/M/S 3 种模型

3)支持输出分割蒙版 mask

4)支持检测框细节调整

高效检测 + 分割!实测下来效果和速度都非常好!

项目地址(已包含工作流):https://github.com/ZHO-ZHO-ZHO/ComfyUI-YoloWorld-EfficientSAM

2 月 19 日 X-Adapter

【Zho】在 ComfyUI 中初步测试了一下 X-Adapter ,效果真不错!!!SD1.5 和 XL 生态打通的感觉太好了,速度也很快,cool!!!

SD1.5 的 controlnet 和 lora 等都可以无缝迁移到 XL 模型上

目前使用的是 @Kijaidesign 做的插件(开始没找到这个插件,这里要感谢摆渡哥给的消息),目前支持了 CN,还未支持 Lora,项目地址:https://github.com/kijai/ComfyUI-Diffusers-X-Adapter

希望 ComfyUI 未来能直接支持

【Zho】XAdapter 大家比较关注的 1.5 cn tile 测试也没问题

2 月 19 日 OpenAI Sora

【Zho】我觉得现在铺天盖地的讲解探究 OpenAI Sora 的内容其实都有点复杂了,不便于理解

而 Runway 在 12 月 11 号发布了他们构建通用世界模型的视频,其实说的就是 Sora 所代表的东西

视频中提到他们认为这种模型将会是 AI 世界的下一个大事件,这也完美预测了 Sora 的爆发性

多说没用,大家看下我翻译的视频就都懂了

2 月 17 日 Stable Cascade

【Zho】ComfyUI 本体已经正式支持 Stable Cascade 新模型了,刚刚测试了一下,还能调节压缩率,非常酷!!!

使用方法:

1)更新 ComfyUI

2)将 B、C 模型下载到 ComfyUI/models/unet

3)将 A 模型下载到 ComfyUI/models/vae

4)将 CLIP 模型下载到 ComfyUI/models/clip

工作流:

1)官方:https://gist.github.com/comfyanonymous/0f09119a342d0dd825bb2d99d19b781c#file-stable_cascade_workflow_test-json

2)我的整理版:https://drive.google.com/file/d/1L0A7yHrE4KeqvNAzm1vjMqNpLMGyUnsA/view?usp=sharing

测试使用 bf16 B/C 双模型,<16G VRAM 没问题

2 月 17 日 X-Adapter

【Zho】等了 2 个月的 打通 SD1.5 生态和 SDXL 生态的 X-Adapter 终于公开代码了!肯定好多小伙伴都忘记这个了哈哈哈哈

项目地址:https://github.com/showlab/X-Adapter

2 月 13 日 Stable Cascade

SC 最简单版本的 ComfyUI 节点已经有了:https://github.com/kijai/ComfyUI-DiffusersStableCascade

Stable Cascade 已经有 demo 可以用了:https://huggingface.co/spaces/multimodalart/stable-cascade

【Zho】Stable Cascade 新架构特点:

1️⃣效率更高,参数更大,速度更快,潜空间更小:1024x1024 编码为 24x24(SD 是 128x128)且不牺牲质量,相比 SD1.5 训练成本降低 16 倍

2️⃣兼容性广:可以使用所有已知的技术,如微调、LoRA、ControlNet、IP Adapter、LCM 等

3️⃣性能突出:提示对齐和美学质量方面都表现优秀

StabiltyAI 今天发了 Stable Cascade 新模型架构博文,效率和质量都提升了,并且还兼容 Controlnet、Lora,未来会公开训练和微调代码

官文地址:https://ja.stability.ai/blog/stable-cascade

2 月 11 日 InstantID

【Zho】InstantID 在 ComfyUI 中有了更好的选择!

@cubiq 制作了可以和 ComfyUI 本体无缝衔接的非 diffuser 版本的 InstantID !这下方便与各种工具串联了!赶快用起来!

我之前的版本也算是完成了让大家第一时间尝鲜的过渡任务,非常感谢大家的支持!

项目地址:https://github.com/cubiq/ComfyUI_InstantID

2 月 7 日 RMBG v1.4 背景抠除模型

【Zho】BRIA AI 刚刚开源了最新的 RMBG v1.4 背景抠除模型,效果非常不错,速度也很快,我已经把它做成了 ComyUI 插件,项目地址:https://github.com/ZHO-ZHO-ZHO/ComfyUI-BRIA_AI-RMBG

【Zho】🪄SVD 1.1 + RMBG 1.4 = ?

已将 RMBG v1.4 in ComfyUI 更新为 v1.5 版!

1⃣增加批量处理功能,可以直接一键去除视频背景

2⃣增加蒙版输出功能,直接输出 mask,同样支持批量

实测下来,应该是目前去除视频背景最好的模型了!!去除 SVD1.1 生成的 97 帧视频的背景,在云端 T4 只需 30s,简直飞速!

项目地址:https://github.com/ZHO-ZHO-ZHO/ComfyUI-BRIA_AI-RMBG

2 月 6 日 I2VGenXL

【Zho】I2VGenXL in ComfyUI 来啦!

I2VGenXL 是我目前实测下来 动效自然程度 和 光影 最好的 高清 视频模型

1)动作幅度没有 SVD1.1 大,但是综合效果比 SVD1.1 强

2)与 SVD 不同,I2VGenXL 可以通过输入正负提示词来完成更好的生成 3)分辨率:1280*704 4)帧数:16 帧 5)速度:比 SVD1.1 慢 20%

工作流设计:

1)与前两天我设计的 SVD1.1 工作流相同,学习了 stablevideo 的交互形式

2)支持文生视频和图生视频两种模式

3)文生视频支持自动暂停选择图像,满意之后再进行视频生成

4)增加了自动补帧的插件

项目地址:https://github.com/ZHO-ZHO-ZHO/ComfyUI-I2VGenXL

【效果最自然的视频模型?! I2VGenXL 现在可以在 ComfyUI 中运行啦!】

2 月 5 日 aiwarper 转绘大神

aiwarper 大神又出牛逼的转绘

2 月 5 日 SegMoE

【Zho】SegMoE in ComfyUI 来啦!

三个臭皮匠顶个诸葛亮! SD 的 MoE 模型?

将新出的 SD 混合专家模型框架 SegMoE 迁移到了 ComfyUI,这个项目很有潜力,省去了微调训练,以一种模块化的方式将多种专而精的 SD 小模型按照框架高效组合成“通用”大模型,这样可以极大节省训练成本,组合动态且灵活,期待更多模型涌现

项目地址:https://github.com/ZHO-ZHO-ZHO/ComfyUI-SegMoE

2 月 3 日 SVD

【Zho】Stable Video Diffusion 1.1 新模型 以及 stablevideo.com 开始内测了,清晰度、控制方式和效果都有很大提升,之前注册过 stabilityai 会员的应该会受到内测申请,大家记得查看邮件

目前提供文生视频、图生视频两种方式,文生视频是先生成 4 张图像,选一张用于生成视频,图生视频提供几种控制方式(仅开放了一部分),另外目前提供 17 种风格

这是初测的 2 段,生成的视频为 24 帧 1024*576,耗时 1.5min,我的初步评价是:Crazy!!!

之前加过 membership 的应该都会收到邀请邮件 可以检查下邮箱 我是自己去申请之后看邮箱才发现已经有邀请了

而且这次开放的这个网站界面也舒服 比之前任何 stabilityai 的网站都好

网站里现在好作品真不少 清晰度是真的高 很多应该都是用 MJ V6 原图生成 效果很好

1 月 30 日 Qwen-VL

15 【击败 GPT4V?我把 Qwen-VL 迁移到 ComfyUI 中了! - -Zho- | 小红书 - 你的生活指南】 😆 kQBVB2cSgsCwXcT 😆 http://xhslink.com/NhC33A

【Zho】开源最强视觉模型?Qwen-VL in ComfyUI 已上线!

1⃣支持本地图像、上下文窗口多轮对话

2⃣支持 PLUS & MAX 双视觉模型

3⃣支持百万像素、任意规格图像

4⃣超强细节、文字识别能力

对比下来应该是开源领域最好的视觉模型了,中文能力突出,目前 API 免费开放!

项目地址:https://github.com/ZHO-ZHO-ZHO/ComfyUI-Qwen-VL-API

通义千问新出的这俩视觉模型现在真的很强 描述细节程度非常好 比 geminiprovision 强很多 现在 API 免费

昨天测了确实强 所以今天赶紧把插件做出来了 这玩意比 gemini 好用

plus 是通义千问大规模视觉语言模型增强版。大幅提升细节识别能力和文字识别能力,支持超百万像素分辨率和任意长宽比规格的图像。在广泛的视觉任务上提供卓越的性能。

QWen-VL-Max 是通义千问超大规模视觉语言模型。相比增强版,再次提升视觉推理能力和指令遵循能力,提供更高的视觉感知和认知水平。在更多复杂任务上提供最佳的性能。

1 月 25 日 UNIMO-G

【zho】百度发布了通过多模态条件扩散生成统一图像的 UNIMO-G,简单理解就是 MLLM 多模态语言模型+图像编码器+训练扩散模型

在 ComfyUI 中用 Gemini-Pro- Vision/GPT4-V + IPAdapter/Photomaker/InstantID + SD/XL 基本可以平替,我之前做过这种工作流

本质就是用视觉模型+图像编码器完善特征提取,以此保持一致性

1 月 25 日 InstantID

【Zho】InstantID in ComfyUI V2.0 来啦!

🆕新增姿势参考图选项,可控性大大增强!工作流已全部更新!

💡不过需要注意的是,姿势参考仅针对脸部(及周围),和通常的 Openpose 不一样

🚗项目地址:https://github.com/ZHO-ZHO-ZHO/ComfyUI-InstantID

现在 isid 对侧脸支持比较好 毕竟相当于简单粗暴固定了姿势

1 月 24 日谷歌视频 LUMIERE

谷歌也发了视频模型:LUMIERE

https://lumiere-video.github.io/

🔥视频 AI 卷起来了!!!

🚗谷歌发布了 LUMIERE:可以轻松实现各种内容生成和视频编辑任务,包括文生视频、图生视频、局部动态生成、视频修复和风格化生成

1 月 23 日 InstantID

点击小红书帖子支持他

【Zho】InstantID in ComfyUI 来啦!仅需一张图就可实现高质量的角色保持!多种风格随心变!

1⃣模块化更高效,同时支持本地、hub 模型

2⃣9 种风格随心选,还可与 PhotoMaker Styler 通用

3⃣3 种工作流:特意增加了配合 ArtGallery 的艺术可视化工作流,助你畅游艺术世界

项目地址:https://github.com/ZHO-ZHO-ZHO/ComfyUI-InstantID

1 月 21 日 GragNUWA

【Zho】在 ComfyUI 中用 GragNUWA 复刻 Runway Multi Motion Brush,效果基本没差别,并且还更灵活,可以增加更多细节的运动路径,GragNUWA 潜力无限!!!

用 dragnuwa 复刻 emad 的视频

就是分辨率太低了点,14 帧也不够用

不过可以用点放大重绘试试 之前测试 SVD 的时候可以 这个就是 SVD 底膜 应该也没啥问题

1 月 19 日 PhotoMaker V2.5

【Zho】又又又更新啦!PhotoMaker in ComfyUI V2.5 来啦!

1⃣支持 Lora 模型

2⃣支持自定义生成数量

3⃣支持通用提示词输入(文本)如:styler、portrait master 等

4⃣新增 lora + batch、portraitmaster + styler + lora 两个工作流

项目地址:https://github.com/ZHO-ZHO-ZHO/ComfyUI-PhotoMaker

可以和肖像大师结合使用,后面有个项目提到

photomaker 融合人物特征还是很好玩的

1 月 18 日 PhotoMaker V2.0

最近是零样本特征提取爆发期了 就看最后谁更好了

【Zho】PhotoMaker in ComfyUI 已更新为 V2.0 版 !

1⃣节点拆分/模块化:分为基础模型加载、PMAdapter 模型加载、参考图预处理(单/多图双模式)和生成模块

2⃣提速 3 倍:23s → 7s(A100)

3⃣支持本地和 hub 托管模型双模式

4⃣支持自定义尺寸

5⃣新增本地/托管模型双工作流

项目地址:https://github.com/ZHO-ZHO-ZHO/ComfyUI-PhotoMaker

1 月 17 日 PhotoMaker V1.5

【Zho】刚把 PhotoMaker in ComfyUI 更新为 V1.5 版 :新增了单张参考图的节点

下面是单张参考图与多张参考图效果的测试对比:可以看到对于保真度来说,多张图的效果明显优于单张图,想要高保真就选多参考图方式,想要发散一些就选单参考图

项目地址:https://github.com/ZHO-ZHO-ZHO/ComfyUI-PhotoMaker

1 月 17 日 PhotoMaker V1.0

【Zho】PhotoMaker in ComfyUI 初版已上线,还在持续优化中,大家想玩的可以试玩一下,项目地址:https://github.com/ZHO-ZHO-ZHO/ComfyUI-PhotoMaker

另外补充一下:

目前这种封装的形式其实意义不太大,需要的是拆分形式的节点,就像 IPA 一样,这样可以与 CN 等各类工具联合使用,集成到各种工作流中,我正在尝试,不过会比较麻烦,最好是官方能出

1 月 15 日 All-in-One LoRa

【Zho】All-in-One LoRa Training Workflow | ComfyUI

刚做了一版自动化预处理、打标、训练、测试 LoRa 的一条龙工作流,相当于之前批量打标的完全体:

1)Gemini Pro Vision 自动打标,描述详细且准确,速度快

2)标签文本储存

3)Lora-Training-in-Comfy 完成训练,直接输出在 lora 文件夹

4)直接加载 lora 完成测试

工作流:https://github.com/ZHO-ZHO-ZHO/ComfyUI-Gemini/blob/main/Gemini_workflows/All-in-One%20LoRa%20Training%E3%80%90Zho%E3%80%91.json

1 月 13 日 LaMa

【Zho】AI 界的 “Obliviate 遗忘咒”:LaMa

测试了一下 ComfyUI 中的 LaMa Remover,非常好用,效果很棒!关键是速度飞快,3s 内即可生成

简单和中度场景表现非常好,复杂场景(尤其是密集人群)表现一般,不过也超过很多方法或模型了,性价比极高

项目地址:https://github.com/Layer-norm/comfyui-lama-remover

1 月 13 日 DragNUWA

【Zho】简单测试了一下 DragNUWA 的 ComfyUI 插件:DragNUWA 效果非常好,可控的 SVD 就是最牛逼的,生成时间比普通的 SVD 慢一点但不多,对此插件来说,唯一麻烦的是路径绘制需要用一个单独的网页工具,然后将数据手动复制到节点中,项目地址:https://github.com/chaojie/ComfyUI-DragNUWA

1 月 12 日 WordCloud

【Zho】发现一个好玩的 ComfyUI 新项目:WordCloud,可以结合图像生成来创造主题词云,非常有趣!

项目地址:https://github.com/chflame163/ComfyUI_WordCloud

工作流:如下

另外,需要注意 wordcloud 节点的 mask 输入只接受 RGBA 的图像,所以要不采用抠图节点,要不使用 AlphaChanelAddByMask 将 RGB 变成 RGBA(Allor 套装或我自己的 Text_Image-Composite 里都有)

1 月 12 日谷歌版的 IPA

谷歌版的 IPA:文本及时对齐 PALP https://arxiv.org/pdf/2401.06105.pdf

1 月 9 日阿里 I2VGen-XL

【Zho】阿里 I2VGen-XL 在 HuggingFace 上发了 demo,刚测了下,效果非常好!https://huggingface.co/spaces/damo-vilab/I2VGen-XL

1 月 9 日 ComfyUI 助手 GPTs

【Zho】之前做的 ComfyUI Assistant 上榜全球 165 名(12.29 数据)!对话数目前已达 1.8k!帮你解决 ComfyUI 的各种问题!工作流+节点的解释、报错、查找与创建!一键直达:https://chat.openai.com/g/g-B3qi2zKGB-comfyui-assistant

1 月 7 日 ComfyUI 3D 插件

【Zho】测了下新出的 ComfyUI 3D 插件,非常强大,潜力巨大,未来配合 3D 模型会有很大用处,项目地址:https://github.com/MrForExample/ComfyUI-3D-Pack

又测试了一下 ComfyUI 3D Pack 支持的高斯喷溅(3D Gaussian Splatting)

是的 最近 ComfyUI 的高质量新插件/项目涌现了很多也逐渐复杂化了 确实有种逐步走向可视化编程平台的感觉 门槛也进一步拉高了

这个 3D 插件的作者正在做 comfyui 交互式 3D 节点 估计这两天就能有了 就可以直接在 comfyui 里转 3d 了

1 月 4 日 ArtGallery

【Zho】我的新项目:ComfyUI ArtGallery 1.0 正式版 来啦!

🤣提示词可视化:对于很多不熟悉艺术的小伙伴来说,面对众多陌生的的选项时,没有参考和预览是一件是非头疼的事,并且还只能等生成之后才能做出判断

🌟现在只需选择喜欢的图像,滑动选择权重,节点会自动输出提示词,自由地在艺术世界冲浪吧!

✅目前推出艺术画廊系列:提供艺术家、艺术运动、艺术媒介、相机镜头、胶片相机等 5 大类提示词参考图

🚗项目地址:https://github.com/ZHO-ZHO-ZHO/ComfyUI-ArtGallery

1 月 4 日视频分享

太酷了!Thibaud Zamora 制作的 AI 4k 短片《Milo & Ziggy: Embark on a Cosmic Journey》

1 月 4 日 LDSR 放大模型对比测试

【Zho】做了下 LDSR 放大模型对比测试,效果是真的好,慢是真的慢,细节光泽远超 4x Ultrasharp 和 RealESRGAN_x4plus(L>U>R),有算力条件的可以尝试,使用插件:https://github.com/flowtyone/ComfyUI-Flowty-LDSR

测试用的是 T4,原图 768*1280(1024 级别),纯采样和解码约 30min(模型加载 5min),换 A100 估计能缩短一半时间约 15min,要是 512 级别的图像还能再缩短,估计约 10min

期待未来有加速的研究 我看模型还是用 DDIM 采样 100 步得到的 结合现在的各种加速方法或采样方法 理论上应该可以做到加速 5 倍以上

缩小到 20 步,A100 1min 以内,普通算力 3min 以内估计就能普及了

12 月 30 日 Gemini 批量打标

【Zho】使用 Gemini 在 ComfyUI 中实现批量打标,关键是免费哈哈哈哈,项目地址:https://github.com/ZHO-ZHO-ZHO/ComfyUI-Gemini

Stability Ai 在 Huggingface 新上传了与英伟达合作的 TensorRT 版本的 SDXL 和 SDXL-Turbo 模型:

1) SDXL TensorRT 在 H100 上 30 步 效率提升 41%

2)SDXL-Turbo TensorRT 在 H100 上 4 步 总时间缩短至 83.8 ms

12 月 22 日 Gemini-Pro 聊天机器人

【Zho】Gemini in ComfyUI 2.0 版 上线!

现在可以在 ComfyUI 中与 Gemini-Pro 聊天机器人畅聊人生啦!

更新内容:新增上下文窗口聊天节点。(目前 Google 只为 pro 模型提供了上下文功能,pro-vision 还未支持)

项目地址:https://github.com/ZHO-ZHO-ZHO/ComfyUI-Gemini

12 月 20 日 Gemini-Pro 双模型

【Zho】Gemini-Pro 双模型现在可以在 ComfyUI 中使用啦!

我连夜写好了调用 Gemini API 的节点!扩展提示词、分析图像、畅聊人生!关键还免费!大家快去玩!

项目地址:https://github.com/ZHO-ZHO-ZHO/ComfyUI-Gemini

ps:本地使用请确保你可以有效连接到 Gemini 的服务

12 月 19 日 ComfyUI 作者更新

【Zho】12 月 19 日,ComfyUI 作者 Blog 更新重点总结:

1) SD Turbo

2) Stable Zero123

3)组节点

4) FP8

5)前端优化

6)Python 3.12 和 Pytorch nightly 2.3

7) Self Attention Guidance( SAG)

8) PerpNeg

9)Segmind Vega 模型

10)新节点+新命令行+GLora 支持

11)7 个项目推荐

https://www.bilibili.com/read/cv28640081/

12 月 18 日肖像大师中文版 2.0

【Zho】肖像大师中文版已更新为 2.0 版,新增 6 项参数,扩充 2 项参数,更新并新增 3 种工作流:

眼睛颜色(8 种)

头发颜色(9 种)

灯光类型(32 种)

灯光方向(10 种)

提高照片真实感

负面提示词

镜头类型(+3 种)

发型(+19 种)

新增 SAG+SVD 视频工作流

项目地址:https://github.com/ZHO-ZHO-ZHO/comfyui-portrait-master-zh-cn

全新肖像大师视频工作流(SAG+SVD):https://github.com/ZHO-ZHO-ZHO/comfyui-portrait-master-zh-cn/blob/main/workflows/Portrait%20Master%20%E7%AE%80%E4%BD%93%E4%B8%AD%E6%96%87%E7%89%88%20V2.0%20%2B%20SAG%20%2B%20SVD%E3%80%90Zho%E3%80%91.json

12 月 18 日 PS

ps 可以直接和 comfyui 实时连接了,项目:https://github.com/NimaNzrii/comfyui-photoshop

12 月 16 日肖像大师中文版 1.0

【Zho】ComfyUI Portrait Master 肖像大师 简体中文版来啦!

超详细参数设置!再也不用为不会写人像提示词发愁啦!重新优化为 json 列表更方便自定义和扩展!已包含标准工作流和 turbo 工作流,大家快去玩!

项目地址:https://github.com/ZHO-ZHO-ZHO/comfyui-portrait-master-zh-cn

AnimateDiff v3 and SparseCtrl

12 月 15 日 VideoLCM 论文

VideoLCM 论文:只需 4 步即可生成视频,未来会公开代码和模型

12 月 14 日 Stable Zero123

stabilityai 发布了从单张图生成 3D 的模型:Stable Zero123

12 月 13 日 Marigold 深度模型

【Zho】下午对新出的 Marigold 深度模型做了测试,整体+细节效果显著优于 LeREs、Zoe 和 MiDas,对建筑和人像的深度细节处理尤其突出,目前来说是我自己用过的最好的深度模型:https://marigoldmonodepth.github.io/

🫡下午对新出的 Marigold 深度模型做了测试,整体+细节效果显著优于 LeREs、Zoe 和 MiDas,对建筑和人像的深度细节处理尤其突出,目前来说是我自己用过的最好的深度模型。

💥目前已经可在 ComfyUI 中加载,可配合 CN 使用,插件地址:https://github.com/kijai/ComfyUI-Marigold?tab=readme-ov-file

🚗官方项目地址:https://marigoldmonodepth.github.io/

✅官方 hugging face demo:https://huggingface.co/spaces/toshas/marigold

ps:测试使用的人脸原图来自 X(noodlecake.ai) ,测试使用的建筑原图来自 ArchDaily

https://t.bilibili.com/874618580296007749?

12 月 13 日 krea 测试

krea 的交互做得好,和 comfyui 出的图配合,还能实时共享屏幕 左边开 comfyui 右边 krea

12 月 13 日 SDXL 精炼模型:Segmind-Vega

全新 SDXL 精炼模型:Segmind-Vega,缩小 70%,速度提升 100%,模型:https://huggingface.co/segmind/Segmind-Vega

但是现在蒸馏和精炼 XL 模型是个方向 很多都在做 最后就看谁的大小、速度和质量平衡的比较好了,确实是小了很多

12 月 13 日大神作品

神转绘

12 月 12 日 General World Models

【Zho】Runway 提出了 AI 发展的下一站:General World Models 通用世界模型,个人感觉十分重要,我特意做了视频翻译和双语字幕,感兴趣的可以详细观看

12 月 11 日 Mixtral 8x7b

最近出了 Mixtral 8x7b 模型,有大神写了 MoE 的介绍文章,感兴趣的可以看:https://huggingface.co/blog/moe

11 月 30 日实时视频工作流

【Zho】用 SDXL Turbo+SVD 做了一版 ComfyUI 实时视频工作流,大家可参考,工作流下载:https://drive.google.com/file/d/1c94g5veM5_lALWq18jDpedL3ZVmJjAI1/view?usp=sharing

LCM comfyui 实时绘画又进化了 直接叠加在了原图上 不用两个窗口来回看了

11 月 28 日 SVD 工作流

SVD 合成的一个初步工作流,用到了我新写的节点(还在优化中),想玩的可以先玩:https://github.com/ZHO-ZHO-ZHO/ComfyUI-Text_Image-Composite

【Zho】参考老外的一套工作流 用自己的节点做了 SVD 绿幕抠图流

11 月 28 日 SVD 自动加字幕的 ComfyUI 节点

【Zho】我自己写了个配合 SVD 自动加字幕的 ComfyUI 节点,可以计帧数,也可静态字幕,之后统一发布

11 月 26 日(SVD)论文总结 + 翻译

Stable Video Diffusion(SVD)论文总结 + 翻译

https://www.bilibili.com/read/cv28006457/?jump_opus=1

11 月 25 日文成视频的工作流

刚做了一版 SVD+CN+IPAPlus 文成视频的工作流(工作流之后发布)

11 月 24 日 comfyUI 作者更新 blog

【Zho 总结】11 月 24 日,comfyui 作者更新 blog:

1.【支持 Stable Video Diffusion】,并提供示例:https://comfyanonymous.github.io/ComfyUI_examples/video/

可以在具有 8GB vram 的 GTX 1080 上生成 25 帧长的 1024x576 视频。也支持 AMD 6800XT with ROCm on Linux。

2.【支持 LCM】,并提供示例:https://comfyanonymous.github.io/ComfyUI_examples/lcm/

3.【Kohya Deep Shrink】:在_for_testing->PatchModelAddDownscale,可以在更高的分辨率上生成一致性图像,无需第二次采样

4.【支持 ZSNR V Prediction Models】:新节点 ModelSamplingDiscrete、RescaleCFG,以及模型加载支持 ZSNR v_pred model。

5.【新节点或更新】:

1)Load VAE:支持 TAESD 快速预览模式,可配合 LCM 实现提速

2)SaveAnimatedWEBP:将批量图像保存为动画 webp 的节点,会包含元数据,拖入 comfyui 可自动加载工作流

3)DOM element clipping:当文本框内容很多,需要滚动查看时,这些节点可以保持在屏幕上的固定位置,而不会随着文本的滚动而移动,但是会使 UI 变慢,可以选择禁用

4)可以加载 API 形式的工作流

5)新增 UI 主题配色

6)RepeatImageBatch:复制一批图像

7)ImageCrop:图像剪裁

8)LatentInterpolate:使用 nlerp 算法实现 latent 之间的差值(相当于我之前提到过的我自己改版的 LatentTravel 的简版)

9)heunpp2 sampler:新采样器,详见 https://github.com/Carzit/sd-webui-samplers-scheduler

10)COMBO primitive:新增过滤器

11)FlipSigmas:可用于翻转传递到自定义采样器节点的 sigma。可用于 unsample 图像(还原图像)

6.【有趣项目推荐】:

1)CushyStudio:以 comfyui 作为后端的前端项目,https://github.com/rvion/CushyStudio

2) Krita: https://github.com/Acly/krita-ai-diffusion

3)AnimateDiff 的最佳实现:https://github.com/Kosinkadink/ComfyUI-AnimateDiff-Evolved

11 月 24 日大神推荐

11 月 23 日 SVD14 帧模型

【Zho】刚刚制作了一版专门用于在 ComfyUI 中使用 SVD14 帧模型生成视频的云部署方案(附带了工作流),免费可用,大家可以去玩:https://www.kaggle.com/matuma3965/svd-14-comfy-1-zho

用的这个插件:https://github.com/Fannovel16/ComfyUI-Frame-Interpolation

ComfyUI 的 SVD 插件已经将 VRAM 从 20G 缩减到了 10G

11 月 23 日 SVD

SVD 在 comfyui 里用上了,项目地址:https://github.com/kijai/ComfyUI-SVD

《Lost Odyssey》我用 DALLE3 + Stable Video Diffusion 做了个实验短片~

b 站了:【AI 实验短片 | DALLE3 + Stable Video Diffusion | Lost Odyssey】

InstaFlow:让 SD 只需一步生成即可生成,还与 controlnet 兼容。项目地址:https://github.com/gnobitab/InstaFlow。demo: https://huggingface.co/spaces/XCLiu/InstaFlow

SVD 视频模型的 colab 方案出来了:https://colab.research.google.com/github/mkshing/notebooks/blob/main/stable_video_diffusion_img2vid.ipynb

11 月 22 日 AI 视频新模型 SVD

https://stability.ai/news/stable-video-diffusion-open-ai-video-model

Stable Video Diffusion

1️⃣GitHub: https://github.com/Stability-AI/generative-models

2️⃣huggingface: https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt

3️⃣paper 论文:https://static1.squarespace.com/static/6213c340453c3f502425776e/t/655ce779b9d47d342a93c890/1700587395994/stable_video_diffusion.pdf

已经有了部署在 huggingface 上的 Stable Video Diffusion 视频模型,大家可以去玩:https://huggingface.co/spaces/multimodalart/stable-video-diffusion

11 月 21 日地产/建筑/室内专用工具套装

StabilityAI 上新|地产、建筑、室内 AI 工具套装

❗️今日凌晨,StabilityAi 官方平台 ClipDrop 宣布推出地产/建筑/室内专用工具套装

🔧工具/功能:

1️⃣天空替换

2️⃣物体、文字去除

3️⃣图像放大

4️⃣变体生成

11 月 15 日建筑设计助手 GPTs

【Zho】建筑设计助手 GPTs:Aichitecture Beta 版上线!

项目链接:https://chat.openai.com/g/g-mOeX0UAqF-aichitecture

💭 Aichitecture = Ai + Architecture

😎Ai+建筑系列上新啦!这是我基于 GPTs 制作的建筑设计小助手:Aichitecture

💡现在 Beta 测试版上线!订阅了 GPT 的小伙伴可以去玩(需要的私)~

🚗目前支持四项基本功能:

1️⃣每日建筑资讯:为你精选 archdaily 当日最新项目(附带项目地址)

2)有趣项目推荐:为你推荐好玩有趣会特定类型的项目参考(附带项目地址)

3)设计分析与建议:可以根据您的设计需求提供专业分析、建议和参考项目(附带项目地址),还可以为您生成概念图

4)帮我改设计:可以基于您的设计或概念提出专业修改和建议,还会提供参考项目或生成相应的概念图

11 月 12 日 ComfyUI Assistant

【Zho】全新 GPTs :ComfyUI Assistant 上线!再也不用担心学不会 ComfyUI 了!

项目地址:https://chat.openai.com/g/g-B3qi2zKGB-comfyui-assistant

功能说明:

1.工作流 | Workflows

1)工作流解释与说明:支持分析 JSON 文件和工作流图片两种方式,会自动分析所包含的节点内容与参数,还可以详细解释参数用法

2)缺失节点查找:会自动给出缺失节点所属项目的详细信息与链接,方便直达

2.自定义节点 | Nodes

1)节点解释与说明:支持文件上传与项目链接 2 种方式

2)创建全新节点:支持 Python 和 JavaScript 两种语言,会自动给出可下载的完整地代码文件,放入 custom nodes 文件夹即可运行

3)报错解决:支持上传文件+报错代码分析,自动给出解决方案或代码文件

未来计划:

1)加入 ComfyUI 教程内容

2)推出创建工作流功能

辅助说明:目前需要订阅 GPT 才可使用~

项目现已上线 GitHub,还新增了 ComfyUI 菜单按钮一键直达:https://github.com/ZHO-ZHO-ZHO/ComfyUI-Assistant-GPTs

ComfyUI Assistant 现已支持对 ComfyUI 工作流图片的解释和参数说明功能

comfyUI 的教程也给 ComfyUI Assistant 加上 这样大家就不用找教程了 直接问它就好了

11 月 7 日 consistency decoder

在 comfyui 里实测了一波昨晚 openAI 新出的 consistency decoder,效果和演示的基本一样,插件地址:https://github.com/lrzjason/ConsistencyDecoderNode,模型下载地址:https://openaipublic.azureedge.net/diff-vae/c9cebd3132dd9c42936d803e33424145a748843c8f716c0814838bdc8a2fe7cb/decoder.pt

云上 T4 跑的速度比 SD1.5 的 VAE 慢一倍左右(SD1.5VAE 1s,consistency decoder 2s)

从人像、建筑、文字等几个方面简单测了下,consistency decoder 的效果与原生 VAE 对比不是太明显

10 月 23 日 LCMs

清华推出了 LCMs: The next generation of generative models after Latent Diffusion Models (LDMs)。

LDM 的下一代模型,项目地址:https://latent-consistency-models.github.io/

训练只需要 32 A100 GPU hours

生成只需要 2~4 步

LCM 在线 demo:https://huggingface.co/spaces/SimianLuo/Latent_Consistency_Model

8 步效果

1-8 步的对比

10 月 20 日 dalle3 论文公布

dalle3 论文公布了

论文概览

OpenAI 发布的 DALL・E 3 相关论文总共有 19 页,作者共有 15 位,半数为华人,分别来自 OpenAI 和微软。

论文地址:https://cdn.openai.com/papers/dall-e-3.pdf

10 月 22 日 stable audio 生成的 ai 音乐

昨天晚上测的一段 animatediff 视频 用了 stable audio 生成的 ai 音乐 解析波形图来控制画面生成节奏 一致性保持的还不错

工作流用的这个:https://github.com/a1lazydog/ComfyUI-AudioScheduler

大家可以自己去玩 效果不错

10 月 14 日 2400+ComfyUI 节点可视化

2400+ComfyUI 节点可视化环形树状图(矢量图)已上传 github:https://github.com/ZHO-ZHO-ZHO/ComfyUI-Nodes-Visualization