跳转到内容

ComyfUI 蒙版

🎉

作者:CYCHENYUE

来源:开源的Ai知识库

蒙版的相关知识

动画控制:

在使用ComfyUI或类似工具时,蒙版可以动态改变,这意味着它的形状和位置可以随时间变化。通过这种方式,动画师可以控制动画中哪些部分应该显示或隐藏,以及它们何时出现或消失。

白色和黑色的功能:

白色在蒙版中通常代表完全透明,允许该区域的视频或图像完全显示。

黑色则表示完全不透明,使得该区域完全隐藏,不显示下面的图像或视频层。

灰度和透明度:

不仅仅限于黑色和白色,蒙版也可以使用灰色来表示部分透明度。这允许更加精细的控制显示的内容,灰度级别越接近黑色,透明度越低;越接近白色,透明度越高。

蒙版白到黑,表示影响力从强到弱.

KJNodes 生成蒙版

蒙版节点 KJNodes

https://github.com/kijai/ComfyUI-KJNodes

说到这里, 不得不多介绍一下JKNodes里面的getNode和setNode节点了, 可以很方便的

rgthree-comfy 控制工作流

分段控制执行流程

https://github.com/rgthree/rgthree-comfy

Segment Anything 语言分割转蒙版

这个插件,用来处理上传的视频,转成蒙版, 结合 GDinoSam(GroundingDINO+Sam) 语义分割在转为蒙版, 这个是不错的选择

https://github.com/storyicon/comfyui_segment_anything

同样第一次运行时候, 会自动下载模型,所以请注意网络环境

ComfyUI 根目录下的 models/grounding-dino 目录

ComfyUI 根目录下的 models/sams 目录

使用 SAM 语义分割, 这里可以填上需要处理的图片中物品.

G-Dino 介绍

GroundingDino 是一种先进的零样本(zero-shot)物体检测模型,结合了DINO模型的图像处理能力与自然语言处理技术。这使得GroundingDINO不仅能检测图片中的物体,还能理解和响应与物体相关的文本提示(text prompts)。它能够在没有额外训练的情况下识别新的或未标记的对象类别,这对于快速适应新任务和场景非常有用。

GroundingDINO的核心特性包括:

  • 高性能的物体检测:在多个零样本物体检测基准测试中展现出色的表现,例如COCO和LVIS数据集。
  • 引用表达理解(Referring Expression Comprehension, REC):模型能够基于给定的文本描述定位并识别图像中的特定对象或区域。
  • 语言和视觉的融合:能够将语言提示与视觉内容有效结合,提升模型对场景的理解和交互能力。
  • 简化的检测流程:通过内置处理减少了传统物体检测中需要的手工步骤,如非最大抑制(NMS),从而提高了效率和性能。

这些特点使得GroundingDINO不仅适用于常规的物体检测任务,还能处理更复杂的场景,如动态环境下的实时物体识别和互动。

SAM 介绍

SAM(Segment Anything Model)是由Meta AI开发的一种前沿的图像分割模型,它可以通过简单的提示(如点击、框选或文本)快速识别和分割图像中的任何对象。这种模型被设计为一个基础模型,能够进行零样本学习和少样本学习,对新的数据集和任务具有出色的适应能力。

SAM的特点包括:

  • 高灵活性:SAM能够接受多种形式的输入提示,并生成有效的分割掩码,这使得它能够应对广泛的图像分割任务。
  • 实时性能:SAM设计简洁,能够在实时环境中快速产生分割结果,对于需要快速响应的应用场景非常适用。
  • 大规模数据训练:SAM利用了包含超过11亿个分割掩码的大型数据集(SA-1B)进行训练,这些掩码涵盖了多种场景和对象,确保了模型的泛化能力和准确性。
  • 无需大量标注数据:与传统的图像分割模型不同,SAM不需要大量的标注数据就能进行有效的训练,这减少了数据收集和标注的工作量。

总的来说,SAM模型通过其强大的图像处理能力和灵活的输入处理方式,为各种图像分割任务提供了新的可能性。它的设计理念和实现方式为图像分割领域带来了一种新的解决方案,特别适合需要快速准确分割图像的场景。

G-Dino与SAM两者区别

  1. SAM:
    • 主要用途:图像分割,即识别和分割图像中的各种对象。
    • 技术特点:支持通过各种输入提示(如点击、框选或文本)来快速生成分割掩码,适用于多种图像分割任务。
    • 应用场景:从简单的对象边缘检测到复杂的场景分析,SAM都能提供支持。
  2. GroundingDino:
    • 主要用途:零样本物体检测,能够识别训练数据中未明确出现的对象类别。
    • 技术特点:结合了自然语言处理,能够根据文本提示识别和定位图像中的特定对象。
    • 应用场景:除了标准的物体检测任务,还能进行复杂的引用表达理解(REC),即根据给定的文本描述定位图像中的对象。

这两个模型在功能和应用上互补:

  • SAM 更侧重于图像的像素级处理和分割,适用于需要精确图像分割的应用。
  • GroundingDino 则侧重于通过文本描述理解和识别图像内容,适用于需要语言交互的对象检测场景。

ComfyUI-Advanced-ControlNet 高级Cn节点

深度对人体的结构控制的比较好, 但是当我们用做动漫这些的, 就需要降低或者取消掉深度, 使用openpose来控制

说到这里, 刚好和大家说一下, 高级的controlNet节点更加的适合与Animatediff一起配合使用, 其实这两个的作者都是同一个.

ComfyUI-Advanced-ControlNet https://github.com/Kosinkadink/ComfyUI-Advanced-ControlNet

还可以和controlNet预处理节点搭配使用 https://github.com/Fannovel16/comfyui_controlnet_aux

save-image-extended-comfyui 保存图片

这里需要一个对上传的视频做CN后, 保存处理结果的插件, 因为,如果视频太大, 在浏览器上显示, 容易爆内存崩

https://github.com/thedyze/save-image-extended-comfyui