跳转到内容

6. DALLE-3 的紧箍咒

看看 OpenAI 给 DALLE3 套上了啥紧箍咒，DALLE-3 system card 论文阅读

作者: 云中江树

微信: zephyr_ai

相比上一代 DALLE-2，除了模型设计改进外，训练数据也大大优化，同时安全工作下足了功夫

ChatGPT 会对用户敏感内容进行审查过滤

输入提示词过滤器会对用户和 ChatGPT 对话进行审查过滤，拒绝不合规内容。如下图：模型拒绝回答不当内容：

黑名单，黑名单内的内容不会生成

ChatGPT 改写优化提示词，用户输入提示词后，ChatGPT 会自动优化增加更多细节信息等改写提示词，DALLE-3最终用优化后的提示词生成图像。

图像过滤器。生成的图像内容会被审查过滤，不当内容不会展示给用户。

开放公众使用前和 GPT4V 一样进行了红队测试和小规模用户测试（discord用户福利），早期模型存在图像生成偏好——倾向于生成年轻白人女孩图片，经过 OpenAI 调教后生成图片更加多样化。同时，早期测试中发现的一些越狱漏洞（如通过医学图像展示涩情图片) 现在已经被堵上。

模型造假能力。能够生成具有真实感的官方文档、虚构事件，但能力有限，并不比现有造假技术造假方便。

模型审美。模型生成的人类图片审美模式化，存在审美上的刻板印象，有可能反过来影响人类的审美，导致审美多样性的减少。

社会影响。禁止生成公众人物图像，早期测试中存在生成名人图像可能，现在模型会拒绝这种请求。

科学领域使用。DALLE-3 在物化生等科学领域的生成内容不正确。在所有被测试的科学领域(化学、生物、物理)中，红队发现了信息中的不准确之处，表明该模型不适合或不能用于这些用途。

艺术风格。可以生成不同的艺术风格图片，同时维护了一份禁止生成的名单，名单上主要包含在世的艺术家，会持续更新。

未来工作

研究 AI 生成图像的标记方法（也许可以称为无痕水印？），方便图像溯源。
研究图像生成模型与人类价值系统的对齐问题，也许可以从 GPT 对齐方法中获得灵感。