基础教程： Coze “图像流” 抢先体验

🥛

原创： Stuart + 来来背景： Coze.cn 于 5.13 晚上上线了“图像流”功能，一个多小时后因不知名原因，光速下架, 现已重新上架。本文的目的是对工具做个快速试用，让没用过的小伙伴们快速了解“图像流”，迅速上手，构建自己的创意。

“图像流”概念

图像流，有点难理解，但是从它出现的位置就能理解，它被 coze 定位成种类似于“工作流”的 agent 工具之一。

熟悉使用 Comfyui 画图的小伙伴应该比较熟悉 SD 的工作流的概念，但是这里的 “图像流” 和 comfyui 不同的是，它提供的更适合普罗大众：一眼就能看懂的工具名称，不太难理解的输入输出参数，都展示了 coze 产品经理对于用户体验的深刻理解。（这里请 coze 的产品经理联系下我提供下赞助：P）

以下为所有“图像流”提供的工具节点：

分三类，第一类纯 AIGC 工具，第二类传统的修图工具，可能用到 AI，可能没有，第三类就完全传统的图片编辑工具了。

以下对各个节点进行简单的试用，让大家快速理解实际效果，为大家的创意提供更好的思路。

PS: 一想到创意我就想到关键词学社的 xixi，珠珠，阿朔，是怎么回事？ 😓

体验视频：

文生图

开始和结束节点就不多说了，熟悉 coze 的小伙伴都知道， coze 要求工作流中必须有这两个节点。直接进入正题，说文生图。

节点参数

默认画 1088*1088 的方图（Coze.cn 的产品经理，或者程序员肯定是个中国人！)

最大能画 1728*1728 的方图，最小 576*576，当然这个像素区间以内的各种比例任你挑选。

Ratio 是一个程序员常用的“枚举”操作，用几个数字代表了不同图的比例 -- 应该是一个程序员设计的。

试用效果

来个“祖传”提示词： 1 girl。实测效果偏向网红 x 动漫风。

试用中文提示词“一个现实风格的女孩”，可以看到可以支持中文：

再复杂点，来点摄影词汇（貌似欧美人照片依旧是模型的主要数据）

双重曝光, 大光圈, 小女孩在里面, 母亲作为轮廓

最后从关键词学社要了点词过来，苏绣：

embroidery art ,Suzhou gardens， landscape painting, Luminous colors, exquisite workmanship maximalism

最后来一个更专业的：

Double exposure Photography, Guangzhou Tower blending with a woman's face, Photographed through the window, dreamy misty atmosphere,rolleiflex photo, Portra 800 film --ar 3:4 --style raw

左边是关键词学社大神用 MJ 画的，右边是 coze 画的，对比下效果：（大家可以感受下哪些词没产生效果） 😂

MJ 画的：

Coze 画的：

意外事件

😯 我遇到了风控：在写入现实主义时，遇到了 risk control，看起来应该是“主义”触发的风控。

尝试去掉关键字，再来一次，成果了。验证了猜测。

智能换脸

节点参数

这里有 3 个参数：这个节点需要 2 个图，一个是脸图，一个是底稿图。

第一个 reference 指的是参考的脸，也就是会换上去的脸。

第二个 template 指的是背景图，也就是脸会被换掉的图。

skin 指的是美肤。

节点参数

这里我尝试生成了一张图做底稿，用了一个真人图片（如侵删）来尝试换脸：

真人图：（如侵删）

换脸结果：（眼睛睁开了，风格挺像）

美肤拉到 1，再来一次：

古风美女，有手就行。不过美肤的效果就是导致脸部磨皮涂抹痕迹严重。

可以帮你实现抱上皮卡丘的愿望哦！

当然，图片反过来也是可以的，效果就是写实的照片上，有一点动漫风格的脸。使用场景大家自己想。 😂

也可以自己放进两张真实的图来替换脸，添加方式在开始框加上一个输入参数，类型为 image 即可：

意外事件

⚠️ 在没有很明显的人脸的时候会报错哦！

纯动漫风格的时候好像也不太行：

💡小技巧：在文生图的提示词里加上写实风格，能提高成功率

背景替换

节点参数

这个节点参数围绕着 3 个核心参数展开：

Base_image_url: 这个就是主体图，说明里说是要透明背景，但是实测背景可以不透明，节点会自动扣图。输出的图和这张输入的图分辨率/尺寸保持一致。
ref_image_url: 这个参数是参考图，和下面那个参考提示词参数至少二选一，甚至可以都选😓。参考图就是背景图，可以由其他参数控制它的权重（也就是和参考图片的相似度）
ref_prompt: 这个参数是参考提示词，可以在完全没有图的情况下，用语言画出背景，属于抽卡类型。

额外参数：

noise_level: 背景和参考图的相似度，和我们常规思路相反，数值越大，相似度越低。 0-999 取值，默认 300。
ref_prompt_weight: 当同时有图和提示词的时候，控制两者融合中各自的权重，总和为 100%也就是 1，这个值代表的是提示词的权重，剩下的给图。
scene_type: 这个参数是个场景参数，就很有电商风格了， hhhhhh

试用效果

虽然提示说要透明背景的图，但是当尝试用了一张带背景的图， +提示词“夏威夷海岛上”，实测不需要自己加抠图节点，直接会抠出主体，然后把背景换成提示词。

效果意外的还不错，有时候抠图会有些毛刺，但是有时候就很不错。

💡有没有很像 AVG 游戏图？可以大幅度降低 AVG 游戏的制作成本！

再来尝试下，动漫风格立绘和实景结合，用生成图结合实景图。 -- 去掉提示词，用以下纯实景图，并且结合不同权重的效果。

权重=0

权重=默认 300

权重=999

可以发现，权重的在 0 和 300 时差的不多，同时 0 页没有严格的复制原背景图，依旧只是参考了风格， 300 时画了好多吃瓜群众， 999 干脆就不参考，连色调都不一样了。

让我们来测试下，同时结合提示词和图片，提示词输入“天空中一群白鹭飞过”，图中正好空中没有白鹭。

实测不输入权重值时，没有画出白鹭：

而输入参数的情况下，直接不可用，目测有 bug，平衡图和提示词的权重参数不可用。

⚠️ 建议在修复之前都不用。

再来试试最后一个参数，电商常用的场景参数。采用提示词生成背景： “沙滩边，海鸥”

默认通用场景

室内场景

美妆场景

除了第二张室内场景出现了场景崩坏，其他都还好，猜测应该是用一定的默认触发词对应加了权重，或者加了一些对应的 LoRA。

意外事件

在我放入一个普通家具沙发作为底图，背景提示词用了“家里火炉和窗户边”时被判定为“violent_armedForces”。估计是“火”这个字导致的。判定相当严格。

去除火字后再次尝试，证实了我的猜测：

多图融合

多图融合，介绍上说：在目标图上添加参考图的风格，从语意上理解，猜测是类似 SD 的 ip adapter 插件 -- 垫图神器。（甚至有可能就是。 😄)

节点参数

核心参数就是两个图， image2 是目标图， image1 是参考风格的。

两个图的权重，以及提示词，以及对应权重。

ratio 是输出的图片比例。

style 只能选动漫还是写实。（和之前的试用结果差不多，基础模型偏动漫风格）

试用效果

实际使用发现它参考的更多的风格在衣服，人物姿势上。总之它的效果让你美美的不难，适合非美术专业的普通人使用。

参考图

目标图

合成图

这里看到默认输出的方形，我们给 ratio 设置上 5，竖着 9:16 的手机竖屏拍照图如约而至：

再加上动漫风格，会出现动漫图，这里就不放图了，有点不适合放....

如果加上提示词，如果和两个图都无关，可能出来的结果会奇奇怪怪。

💡 小技巧：建议只写一些和图片相关的提示词，比如这个美女的提示词可以写她的动作，你将得到同一位美女的不同动作，很适合用于保持风格的图片集制作。

突然想到前几天有人问我是不是可以做男生+女生未来的孩子的脸部预测，来试试：

结果么，很好很抖音，至于像不像，见仁见智了。至于美不美，至少我觉得挺好看的，哈哈😂。

人像风格化

这个所谓的人像风格化，就是指把人物的照片改成某种风格的照片。

节点参数

参数核心的反而是最后一个参数 style_prompt，提供了 5 种风格如下：

必须参数 url 是指要改风格的图， user_prompt 是指图片中添加的内容。剩下的参数是图片出来以后的长和宽。

⚠️ 实测这个长宽参数有个 bug，长宽不生效，画出来和原图比例一致。

试用效果

默认的不填，就是变成新海城风格。

我们尝试输入 1。提示词“海边” 2。长宽都是 888， 3。默认风格 0

用之前常用的图垫图：

可以发现长宽不生效，提示词生效了，画了海边，风格还不错：

以下是 1。提示词 “山顶” 2。风格水彩风格 -- 和原图不太像了

以下是 1。提示词 “海岛” 2。风格穆夏 -- 有点崩坏

以下是风格 2.5d -- 脸部 95%崩坏，不建议用

以下是风格水墨--- 画出来也是奇奇怪怪的。

💡 如果不在意是否和原图相似度，只是单纯做个水墨风格的插画，人的姿态比较相似的，这种可以用。

⚠️ 5 个风格中，有时候手的动作或者脸部或多或少地会崩坏，还是需要多次抽卡。

空间风格化

从描述上看是建筑或者室内设计风格的变更，风格也是法式美式啥的。

节点参数

那和人物风格化一样，核心参数一定是风格 style:

试用效果

试用打算分特色建筑，普通民房和室内装修两类：以下为垫的图

特色建筑

东南沿海高级农民房一套

普通一线城市室内装修

测试结果，建筑的比如图一和图二，在没有任何提示词的情况下，除了中国风画出来有点像没加纹理的 3d 白模型

但是提示词可以修改墙面颜色，但是修改纹理还不清楚提示词，比如这个提示词“绿色外墙”的农民房：

即使是家装而言，也很素，或许通过特定的提示词能用，目前犹未可知，以下风格对应 0-3，第二行 4-6

智能扩图

这个节点适合用于构图不太对想改变构图的图片。

节点参数

参数分别是往 4 个方向扩图，只能选择扩或者不扩，不能选择扩多少像素。

试用效果

我们先来文生图，生成一个方图，然后向左扩图，效果如下，变成了一个新构图的长图，效果不错。

再来左边和上面同时扩图，效果也不错。

来个实景照片试试，比如下图虽然很美，方形构图可能不讨喜，我们来把它变成长图。

实景图扩图效果粗看，尤其是天上的云很震撼，细看有些复杂的画面，完全经不起推敲

💡小技巧：扩图的部位尽可能的简单，不容易出现崩坏。要加提示词的话也一样，建议加些简单的，不建议画人之类的，崩坏结果惨不忍睹

举个例子，以下这个图，最简单的部位就是路面，扩图就扩路面，对于构图也加深了道路的引导线，效果还行。

向下扩图后的效果，还行。

提示词优化

节点参数

这个节点还是比较容易理解的，如果我们觉得自己提示词需要优化，加入它进行优化。参数也很简单，就一个要优化的提示词。

试用效果

通常这一类的节点很好用。我们用一开始就在用的文生图提示词： 1 girl in real world来试试。这里我们用优化前和优化后都生成一张图，也做个效果对比：

它给我把提示词优化成以下内容：

1girl, ultra-detailed, realistic photo style, reading a book with curiosity, in a sun-dappled library, soft lighting, warm color palette

翻译下: 一名女孩，超精细写实照片风格，带着好奇心阅读书籍，置身于阳光斑驳的图书馆内，柔和的光线，温馨的色彩搭配。

它为我们添加了很多具体的信息，比如在带着好奇心看书，环境中有阳光，色彩搭配的特点。来看下实际文生图效果对比： --- 修改后的提示词貌似很难把图片控制在真实照片的感觉，测试结果中它的文生图模型中“in real world”来控制更真实的图片生成效果比“realistic”效果好的多。

（😂喜欢哪个见仁见智了，不过也有抽卡的因素在。至少右边的打光的感觉不错。)