6. DALLE-3 的紧箍咒
看看 OpenAI 给 DALLE3 套上了啥紧箍咒,DALLE-3 system card 论文阅读
作者: 云中江树
微信: zephyr_ai
相比上一代 DALLE-2,除了模型设计改进外,训练数据也大大优化,同时安全工作下足了功夫
- ChatGPT 会对用户敏感内容进行审查过滤
- 输入提示词过滤器会对用户和 ChatGPT 对话进行审查过滤,拒绝不合规内容。如下图:模型拒绝回答不当内容:
- 黑名单,黑名单内的内容不会生成
- ChatGPT 改写优化提示词,用户输入提示词后,ChatGPT 会自动优化增加更多细节信息等改写提示词,DALLE-3最终用优化后的提示词生成图像。
- 图像过滤器。生成的图像内容会被审查过滤,不当内容不会展示给用户。
开放公众使用前和 GPT4V 一样进行了红队测试和小规模用户测试(discord用户福利),早期模型存在图像生成偏好——倾向于生成年轻白人女孩图片,经过 OpenAI 调教后生成图片更加多样化。同时,早期测试中发现的一些越狱漏洞(如通过医学图像展示涩情图片) 现在已经被堵上。
模型造假能力。能够生成具有真实感的官方文档、虚构事件,但能力有限,并不比现有造假技术造假方便。
模型审美。模型生成的人类图片审美模式化,存在审美上的刻板印象,有可能反过来影响人类的审美,导致审美多样性的减少。
社会影响。禁止生成公众人物图像,早期测试中存在生成名人图像可能,现在模型会拒绝这种请求。
科学领域使用。DALLE-3 在物化生等科学领域的生成内容不正确。在所有被测试的科学领域(化学、生物、物理)中,红队发现了信息中的不准确之处,表明该模型不适合或不能用于这些用途。
艺术风格。可以生成不同的艺术风格图片,同时维护了一份禁止生成的名单,名单上主要包含在世的艺术家,会持续更新。
未来工作
- 研究 AI 生成图像的标记方法(也许可以称为无痕水印?),方便图像溯源。
- 研究图像生成模型与人类价值系统的对齐问题,也许可以从 GPT 对齐方法中获得灵感。