AIGC Weekly #12

🔗 原文链接： https://op7418.zhubai.love/posts/22...

发表时间：2023-03-13

工具：Midjourney ar 16:9 v4

提示词：vector, flat, Grassland in spring, mountains, meteor shower, unreal engine, by jewel tones, scandi style, minimalism, 4k

如无意外会在每周一更新，主要介绍上周AIGC领域发布的一些产品以及值得关注的研究成果，由于我自己是一个设计师，所以在一些专业内容的描述上可能存在问题，欢迎在渠道帮我反馈及更正。（本期部分文案使用了Notion AI以及Chat GPT帮助润色和翻译）

❤️上周精选

我制作了一批AI生成的桌面壁纸

上周我用AI生成了一些抽象的图片壁纸，因为那天刚好是惊蛰，所以就以惊蛰这个节气为主题命名了。发出去之后很多朋友很喜欢希望给一些高清的。因为Midjourney现在生成的图片基本分辨率都在2K之下，所以我用了一些比较好的服务再不损失内容和质量的情况下将壁纸的分辨率提高到了8K。

由于分辨率很高，所以壁纸可以随意裁切，桌面和移动端都可以使用。一共包含12张8K分辨率的壁纸。使用的图片放大服务比较贵所以8K分辨率壁纸包的价格为1.9元。

未经过放大的原始图片免费提供下载。

GPT-4要来了？-推测多模态模型的能力

上周Heise发了一篇报道说微软德国的首席技术官Andreas Braun9号参加了一场AI启动活动，他提到“ 我们将在下周推出GPT-4，那里我们将拥有多模型，将提供完全不同的可能性 - 例如视频。 ”

但是随后Sam Altman又说他们会在长时间等待后，于明年1月发布GPT-4。

无论GPT-4是否会在本周发布，从Open AI的迭代速度来看发布时间可能确实很近了，如果GPT-4确实如微软德国CTO所说是个多模态的模型的话（毕竟大家的终极目标都是AGI），我们可以从微软上周发布的这个多模态模型Kosmos-1 的论文来推断如果GPT-4是多模态模型的话可能具备哪些能力：

引入了视觉智商测试集，用于诊断 MLLM 的非语言推理能力。
无OCR阅读理解：输入屏幕截图、扫描文档、街道标志或任何包含文本像素。直接推断内容而不需要明确使用OCR。这对于在多媒体网页上解锁AI应用程序或来自真实世界摄像头的“野外文字”非常有用。
多模态聊天：关于一张图片进行对话。甚至可以在中途提供“后续”图像。
广泛的视觉理解能力，如字幕、视觉问答、物体检测、场景布局、常识推理等。
音频和语音识别（？）：这个没有在Kosmos-1论文中提到，但Whisper已经成为OpenAI API，并且应该很容易集成。

在3月8号的时候谷歌也发布了一个多模态的LLM模型PaLM-E ，可以将现实世界的传感器模态纳入语言模型，包括连续的机器人操纵规划、视觉问答和描述（具体的视频可以去上面链接看）。它能够处理多模态信息，展示多模态思维链推理。PaLM-E拥有5620亿参数，是GPT-3的三倍多，号称史上最大规模视觉语言模型。谷歌和柏林工业大学是PaLM-E背后的打造团队。该模型可以用于感知推理任务、视觉语言任务和语言任务，并将来自视觉语言领域的知识转化为体验推理的知识。