Midjourney群像人物一致性保持及空间深度控制

作者：啊朔 -

提前声明：本教程适用于AI视频生成中的数字帧准备过程，较少用于Midjourney普通出图为主的场景。

原因如下：AI视频准备涉及：人物和场景两种因素，所以在视频生成中一般默认为先生成人物（干净底色，纯人物），再基于确定好的场景风格后，叠加二者混合出最终的数字帧；而Midjourney的普通图（请注意，普通图）多数时候不涉及分离生成及融合生成的步骤，所以本教程对AI视频的准备工作指导和实用性更高，当然如果你对掌握更多的Midjourney技巧很感兴趣，也是非常非常欢迎你看下去，如果有帮助的话，欢迎点赞👍哟！

-- by 阿朔

双人画面人物一致性的保持(5步）

🐰

针对需求：场景中有两个人错位站立的画面，一主角一配角（主次分明，配角出场也要清晰）

针对这种情况，首先需要准备两个链接：a. 初始图 - “已生成的单人画面（配角为主）”链接，b. “主角的单人图”链接，假设初始图的女主角是Lisa，现在需求是在Lisa的“侧前方”，增加Jeff（男同事）的画面，即Jeff在「再次生成图中成为主角，Lisa作为配角」出现。参考以下步骤，一步步推进(Step 1-5，共五步)。

Step 1: 将初始图（A)以及人物图(B)作为风格（sref）及人物（cref）的参考内容，提示词中需要注意⚠️：

a. 描述好空间关系（下方画线部分），其中视角问题可以略过（风格参考会自带角度）；

b. 成功输出图（C)，这时会遇到问题：女同事Lisa无法保持跟初始图（A）一致；

（在这里无需纠结，Step 1的重点在于确认整个画面的构图，人物可以通过后续重绘解决）

Prompt参考：Sci-fi movie scene. In the silver-white space environment, from the over-the-shoulder lens on the right side of the man with short hair and navy blue jumpsuit, a transparent virtual screen appeared on the wall in front of him. Behind there is the silhouette of another female employee with long blue hair, operating another screen. Rendered in a C4D style inspired by Unreal Engine, with high resolution and rich detail. --sref url（url即链接） --cref url （url即链接） --ar 16:9 --style raw --sw 30 --cw 100

** 其中：sref为风格参考，cref为人物参考，cw范围为0-100，默认100但是建议写上去确保万无一失

A. 初始图（单人画面生成结果）

B. 男同事Jeff画像

C. 构思中应产生的构图效果（即男生作为主角，女生作为配角，一前一后，画面具有层次感）

Step 2: 找到已生成的Lisa纯人物的图，提取图片链接（url）做准备工作。

Step 3: 基于Step 1生成的构图清晰但人物失控的成图（C）基础上，进行重绘Vary Region，步骤：a. 框选需要被替换的人物，b. 然后将Step 2 准备好的链接，贴入框内界面cref后面，注意⚠️：先把原始的cref（即红色部分）删掉哦！

Step 4: 连续“抽卡”后找到合适的角度，选中理想的图片，U1/U2/U3/U4点击后就可以拿出来使用啦。

Step 5: 假设此时突然加大难度 - 即当甲方爸爸（小伙伴）提需求：要求配角将头转过来，营造一种TA在“偷看主角”的感觉。这时候，a. 先准备一个正脸照的链接，然后进入重绘界面圈起红色部分，b. 更新cref的链接为正脸照链接（如果还是出不来，再修改原有指令词，要求将女性的侧脸照替换成正脸）；坚持几轮抽卡后就可以得到需要的结果（如成品图”所示）。

多人群像Z轴空间内容输出(7步)

🍊

针对的需求：构图需要有空间深度的场景，一共分为七步。

Step 1: 模拟场景：小伙伴画了一张抽象化的参考图用以理解画面的空间关系，在此基础上出图，一步到位非常难，因为对于当下的Midjourney来说，出图原理决定了随机性，如果给过多内容在一张图的时候，难以控制效果，尤其是侧身角度过去的透视视角图，所以构思的时候第一步要优先生成“构图”为主的画面，在此基础上进行细化修改。

Step 2: 这时候需要倒退回第一个教程抓取关键要素 - “风格参考图”，比起文字，图片会让Midjourney能理解（读取）到空间关系。基于没有现成的图，于是我动了些巧思 - 把那张抽象的手稿丢给了即梦，让即梦按照手稿出图（选择-景深参考）。

Step 3: 回到Midjourney - 垫图（即梦出的图作为sref，原始侧身照作为cref）+ prompt开始抽图。

Step 4: 第三步生成的图效果已经有90%，但是站姿不合常理（没有真的侧身站立）。因此决定重绘面部及侧身幅度，在重绘多轮后得到了下图，但人物面部过于2d，所以需要继续精修。

Step 5: 将Step 4生成的图seed值复制，重新使用Prompt+sref+cref+上图的seed值再次生成，这里请注意⚠️：sref需要使用的是“成品图”，cref使用的是step3里的链接 - 原始侧身照，这样就可以得到右图。

参考：Sci-fi movie scene. The profile of a woman is in the foreground, and in the background are the backs of three employees, who are standing and operating virtual screens. Rendered in a C4D style inspired by Unreal Engine, with high resolution and rich detail. --ar 16:9 --seed 3792896587 --cref url --sref url--style raw --sw 100 --cw 100

Step 6: 用“右图”作为sref风格提示图，提示词，cref和种子值保持不变，进行再次刷新迭代，得到下图。

Step 7: 以Step 6为基础，进行局部重绘改变后排两个人的形象，请耐心的一个个改，不要一次改俩（会失控），最后在你的耐心下，会最终收获“第四张”完美的图。

🐌

最后的最后，既然看到这里了，来个总结👫：

思路是这样的，但追求效率更高的话，可以用PS或者其他工具哟，有时候不要过于死磕纯ai处理。
如果非要死磕MJ来实现群像控制&空间深度控制，一句咒语：“sref+cref+局部重绘”配合不断的练习和刷新，以及耐心可以得到99%的满意，这时候效率就别考虑了🤣🤣🤣。