AIGC Weekly #16

🔗 原文链接： https://op7418.zhubai.love/posts/22...

发表时间：2023-04-10

工具：Midjourney Niji v5

提示词：Femme, cyberpunk akira style clothes,A young Motoko Kusanagi wears lemon yellow and fluorescent green armor and holds a high-tech pistol, contrast, long render, pink and white, simple background, gauche art, wes anderson, artstation masterpiece, painting by John Singer Sargent --ar 3:2

如无意外会在每周一更新，主要介绍上周AIGC领域发布的一些产品以及值得关注的研究成果，由于我自己是一个设计师，所以在一些专业内容的描述上可能存在问题，欢迎在渠道帮我反馈及更正，如果觉得有收获的话也可以订阅一下。（本期部分文案使用了Notion AI以及Chat GPT帮助润色和翻译）

各位周一好呀，上周我们新增了292个订阅用户，现在总订阅达到了2005个，来看一下上周的内容总结吧。

❤️上周精选

Meta发布图像分割模型SAM

Meta这周公开了他们的图像分割模型SAM（Segment Anything Model），这是一个可以轻松执行交互式分割和自动分割的单一模型。该模型的可提示接口使其可以以灵活的方式使用，只需为模型设计适当的提示（点击、框、文本等），就可以实现广泛的分割任务。此外，SAM是在一个多样化、高质量的掩码数据集上进行训练的（作为该项目的一部分收集），这使它能够推广到训练期间未观察到的新类型的对象和图像。这种泛化能力意味着，总的来说，从业者将不再需要收集自己的分割数据并微调模型以适应他们的用例。

最强的是它已经有了对“对象”的通用概念，即使是对于未知的对象、不熟悉的场景（例如水下和细胞显微镜）、模糊的情况也可以进行分割。 Jim Fan 认为这是计算机视觉领域的“GPT-3”时刻。

举个例子前几天不是已经有利用Stable Diffusion的图生图功能把假人模特变成真人图片，现在的一个关键问题是一些比较小的商品没有办法快速添加蒙版，依赖人工绘制蒙版，如果使用了这个图像分割模型添加蒙版的话就可以完全自动化了。

他们还开放了一个网页可以试用Demo，推荐去试一下，非常强，试用地址。

模型下载地址论文阅读

Midjourney腹泻式更新了一堆功能

上周Midjourney突然腹泻式更新，更新了图片提取提示词、批量创建功能、程序化提示词生成功能、Niji V5公测以及最重磅的Web UI开放了内测，下面分别介绍一下这几部分内容。

图片提取提示词

使用/describe上传图片即可获得四个关于该图片的提示词，然后点击对应数字按钮就可以用这个提示词生成图片。具体实验可以看这里。

批量生成功能

简单来说就是在提示词后面更上比如--repeat 10这样的命令，那么这个提示词机会一次性重复生成10次，不用我们自己手点了。目前这个功能只有30美元以及以上的会员可以用。

程序化提示词生成

在书写提示词的时候把对应的提示词用{}包起来，那么他就会自动对{}里面的提示词进行叉乘搭配测试你设置的提示词组合的效果。举个例子/imagine a {cyberpunk, vaporwave, art deco} {cat, dog}，你写完左边的提示词回车后Midjourney会自动测试/imagine a cyberpunk cat /imagine a vaporwave cat /imagine a art deco cat /imagine a cyberpunk dog…等提示词的效果并展示，一次最多会进行40次生成。这对与我们测试提示词的效果非常有用。目前这个功能也是只有30美元以及以上的会员可以用。可以在这里查看具体的测试。

Niji V5动漫模型公测

Niji V5是在Midjourney V5的基础上微调的动漫模型。可以在/settings里选择niji version 5或者在提示词后跟上--niji 5 使用这个模型。目前我试下来有个问题就是你提示词没有说人，它生成的内容里面也会自己加上人形生物，具体的测试可以看这里。

网页生成图片的Web UI功能

之前预告很久的WebUI功能终于开始内测了，它也不是我们想象中的只是把提示词输入和图片展示的功能搬到了网页上，这个模块的功能非常丰富：

提示变得更容易告别一次又一次地输入“/imagine”。Web 应用程序允许直接在提示栏中输入内容，并内置自定义设置 [提示参数不再结束]。可以在右侧面板轻松更换设置，甚至可以保存设置预设。

自定义工作区你甚至可以使用 Discord 频道的频道 ID 将旧的工作区导入到新的工作区中。

图像上传使用参考图像从未如此方便。，只需将它们从计算机文件中拖放[或选择]上传，然后单击所需的图像，在撰写提示时将它们用作参考。

查看生成历史生成历史会汇总你生成图片过程中的每一步操作和对应的生成结果，相似的内容会被整合在一起方便检索。

提示栏功能上传图像并不是什么新鲜事，但现在你可以随机调换提示和添加心情板。“随机调换提示”是什么意思？随机调换提示会在提示栏中生成一个随机提示。添加心情板会在生成提示时从你的收藏中[类似于参考图像]获取灵感。当你想尝试保持特定的口吻、风格或色彩方案时，这可能非常有用。

如何使用这个功能？

测试参与的前置条件是你需要用mid生成过超过10000张图。下面是参加测试步骤：

前往 Midjourney 主服务器并输入 /info
#10000-club 会出现在其他频道中
你可以去club问问怎么访问测试服

我做了一个帮你把Midjourney提示词和图片保存到Notion的浏览器扩展

我用GPT-4帮忙写了一个浏览器扩展，帮你把Midjourney提示词和对应图片快速保存到Notion中。

插件的演示视频可以在这里看： https://twitter.com/op7418/status/1644675934803628032?s=20

插件可以在这里下载： https://github.com/op7418/Prompt-hunter

下面是我这周在使用GPT-4编码的一些心得：

在代码编写方面多做要求GPT-4的输出结果可读性会好很多
尽量让他多打log，以便能够准确定位问题
由于他的数据库就到21年很多事情不知道，所以你需要给他一些输入，例如对应产品的开发文档。比如他就认为Notion API 支持更改数据库的内容不支持为页面添加内容，于是我直接把Notion那部分的开发文档扔给它，它就会了，学习能力真的强。
还是那句话GPT-4不是全知的所以产出效果很依赖你的输入内容质量，在跟他对话的时候尽量提供详细的完整的信息