审核(Moderation)
概述
Moderation Endpoint(端点)是一种工具,可用于检查内容是否符合 OpenAI 的使用策略。因此,开发人员可以识别我们的使用策略禁止的内容并采取行动,例如通过过滤。
这些模型分为以下类别:
在监视 OpenAI API 的输入和输出时,可以免费使用审查终结点。我们目前不支持监控第三方流量。
我们一直在努力提高分类器的准确性,特别是致力于改进 、 和内容的分类。我们对非英语语言的支持目前有限。hate`self-harm`violence/graphic
快速入门
若要获取一段文本的分类,请向审查终结点发出请求,如以下代码片段所示:
response = openai.Moderation.create(
input="Sample text goes here"
)
output = response["results"][0]
下面是终结点的示例输出。它返回以下字段:
flagged
:如果模型将内容分类为违反 OpenAI 的使用策略,则设置为。true``false
categories
:包含每个类别的二进制使用策略冲突标志的字典。对于每个类别,该值为模型将相应类别标记为违反,否则。true``false
category_scores
:包含模型输出的每个类别原始分数的字典,表示模型对输入违反 OpenAI 类别策略的置信度。该值介于 0 和 1 之间,其中值越高表示置信度越高。分数不应被解释为概率。
{
"id": "modr-XXXXX",
"model": "text-moderation-001",
"results": [
{
"categories": {
"hate": false,
"hate/threatening": false,
"self-harm": false,
"sexual": false,
"sexual/minors": false,
"violence": false,
"violence/graphic": false
},
"category_scores": {
"hate": 0.18805529177188873,
"hate/threatening": 0.0001250059431185946,
"self-harm": 0.0003706029092427343,
"sexual": 0.0008735615410842001,
"sexual/minors": 0.0007470346172340214,
"violence": 0.0041268812492489815,
"violence/graphic": 0.00023186142789199948
},
"flagged": false
}
]
}
OpenAI 将不断升级审核端点的基础模型。因此,随着时间的推移,依赖于的自定义策略可能需要重新校准。category_scores