Azure AI 内容安全Content Safety Studio实战

Azure AI Content Safety 检测应用程序和服务中用户生成和 AI 生成的有害内容。 Azure AI 内容安全包括文本和图像 API，可用于检测有害材料。交互式 Content Safety Studio，可用于查看、浏览和试用用于检测不同形式的有害内容的示例代码。

关注TechLead，分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验，同济本复旦硕，复旦机器人智能实验室成员，阿里云认证的资深架构师，项目管理专业人士，上亿营收AI产品研发负责人

- 什么是 Azure AI 内容安全？
- 使用场合
- 产品类型
- Content Safety Studio
- - Content Safety Studio 功能
  - 分析文本内容
  - 检测越狱风险
  - 分析图像内容
  - 查看和导出代码
  - 监视联机活动
  - 管理资源
- 输入要求
- 安全性
- - 使用 Microsoft Entra ID 或托管标识管理访问权限
  - 静态数据加密
- Azure AI 内容安全支持的语言
- - 文本审查

file

什么是 Azure AI 内容安全？

Azure AI Content Safety 检测应用程序和服务中用户生成和 AI 生成的有害内容。 Azure AI 内容安全包括文本和图像 API，可用于检测有害材料。交互式 Content Safety Studio，可用于查看、浏览和试用用于检测不同形式的有害内容的示例代码。内容筛选软件可以帮助你的应用遵守法规或维护用户的预期环境。

使用场合

下面是软件开发人员或团队需要使用内容审核服务的一些场景：

在联机市场中审查产品目录和其他用户生成的内容。
在游戏公司中审查用户生成的游戏项目和聊天室。
对用户添加的图片和文字进行审查的社交通讯平台。
企业媒体公司对其内容进行集中式审查。
K-12 教育解决方案提供商为学生和教师筛选掉不当的内容。
不能使用 Azure AI 内容安全检测非法儿童剥削图像。

产品类型

此服务提供不同类型的分析。下表介绍当前可用的 API。

类型	功能
分析文本 API	扫描文本以检测多种严重性级别的色情、暴力、仇恨和自残内容。
分析图像 API	扫描图像以检测多种严重性级别的色情、暴力、仇恨和自残内容。
越狱风险检测（新功能）	扫描文本以查找大型语言模型上的[越狱攻击风险]
受保护材料文本检测（新功能）	扫描 AI 生成的文本以查找已知文本内容（例如歌词、文章、食谱、选定的 Web 内容）。

Content Safety Studio

file
Azure AI Content Safety Studio 是一种在线工具，旨在使用先进的内容审核 ML 模型处理可能存在的冒犯性、有风险或不良的内容。它提供模板和自定义工作流，让用户能够选择和构建自己的内容审核系统。用户可以上传自己的内容，也可以使用提供的示例内容进行试用。

Content Safety Studio 不仅包含现成的 AI 模型，还包含 Microsoft 内置术语阻止列表，用于标记不雅内容并及时了解新趋势。你还可以上传自己的阻止列表，拓展有害内容的覆盖范围以满足特定用例。

该工作室还允许设置审核工作流，可在其中持续监视和提高内容审核性能。可帮助你满足各种行业（如游戏、媒体、教育、电子商务等）的内容要求。企业可以轻松地将其服务连接到该工作室，并实时审核其内容（包括用户生成的内容以及 AI 生成的内容）。

所有这些功能都由工作室及其后端处理，客户无需操心模型开发。可以载入数据以快速验证并对 KPI 进行相应的监视，例如技术指标（延迟、准确性、召回率）或业务指标（阻止率、阻止量、类别比例、语言比例等）。通过简单的操作和配置，客户可以快速测试不同的解决方案并找到最合适的解决方案，而无需花时间试验自定义模型或手动进行审核。

Content Safety Studio 功能

内容安全工作室中提供以下 Azure AI 内容安全服务功能：

审查文本内容：使用文本审查工具，可以轻松对文本内容运行测试。无论是要测试单个句子还是整个数据集，我们的工具都为你提供用户友好的界面，让你可以直接在门户中评估测试结果。可以尝试使用不同的敏感度级别来配置内容筛选器和阻止列表管理，确保内容始终按照确切规范进行审核。此外，借助导出代码的功能，可以直接在应用程序中实现该工具，从而简化工作流并节省时间。
审查图像内容：使用图像审查工具，可以轻松对图像运行测试，以确保它们符合内容标准。使用用户友好的界面，可以直接在门户中评估测试结果，并且可以尝试使用不同的敏感度级别来配置内容筛选器。自定义设置后，可以轻松导出代码，在应用程序中实现该工具。
监视联机活动：借助功能强大的监视页面，你可以轻松地跟踪不同形式的审查 API 使用情况和趋势。使用此功能，可以访问详细的响应信息，包括类别和严重性分布情况、延迟、错误和阻止列表检测。此信息提供内容审查性能的完整概述，让你能优化工作流，并确保内容始终按照确切规范进行审核。使用我们的用户友好界面，可以快速轻松地导航监视页面，以访问在内容审核策略方面做出明智决策所需的信息。你拥有随时了解内容审核性能以及实现内容目标所需的工具。

分析文本内容

“审查文本内容”页提供快速试用文本审查的功能。
file

选择“审查文本内容”面板。
将文本添加到输入字段，或从页面上的面板中选择示例文本。

提示

文本大小和粒度

文本提交的默认最大长度为 10K 个字符。
选择“运行测试”。

该服务返回检测到的所有类别，以及每个类别的严重性级别（0-安全、2-低、4-中、6-高）。它还会根据配置的筛选器返回二进制的“已接受”/“已拒绝”结果。使用右侧“配置筛选器”选项卡中的矩阵为每个类别设置允许/禁止的严重性级别。然后，可以再次运行文本以查看筛选器的效果。

通过右侧的“使用阻止列表”选项卡，可以创建、编辑阻止列表并将其添加到审查工作流。如果在运行测试时启用了阻止列表，则会在“结果”下获取“阻止列表检测”面板。该面板会报告阻止列表的任何匹配项。

检测越狱风险

在“越狱风险检测”面板中可以尝试进行越狱风险检测。越狱攻击是用户提示，旨在激怒生成式 AI 模型展示它训练的行为，以避免或打破系统消息中设置的规则。这些攻击可以是复杂的角色扮演，也可以是对安全目标的微妙颠覆。
file

选择“越狱风险检测”面板。
选择页面上的示例文本，或输入自己的内容进行测试。还可以上传 CSV 文件以执行批量测试。
选择“运行测试”。

服务将返回每个样本的越狱风险级别和类型。你还可以通过选择“详细信息”按钮来查看越狱风险检测结果的详细信息。

分析图像内容

“审查图像内容”页提供快速试用图像审查的功能。

file

选择“审查图像内容”面板。
从页面上的面板中选择示例图像，或上传自己的图像。提交图像的最大大小为 4MB，图像尺寸必须介于 50x50 像素到 2048x2048 像素之间。图像可以是 JPEG、PNG、GIF、BMP、TIFF 或 WEBP 格式。
选择“运行测试”。

查看和导出代码

可以使用“分析文本内容”或“分析图像内容”页中的“查看代码”功能查看和复制示例代码，其中包括严重性筛选、阻止列表和审查函数的配置。然后，你可以自行部署代码。

file

监视联机活动

使用“监视联机活动”页可以查看 API 使用情况和趋势。

file
你可以选择要监视的媒体类型。还可以通过选择“显示以下时间段内的数据:__”来指定要检查的时间范围。

在“每个类别的拒绝率”图表中，还可以调整每个类别的严重性阈值。
file
如果要根据“十大禁用字词”图表更改某些字词，也可以编辑阻止列表。

管理资源

若要查看资源详细信息（如名称和定价层），请选择 Content Safety Studio 主页右上角的“设置”图标，然后选择“资源”选项卡。如果有其他资源，也可以在此处切换资源。
file

输入要求

文本提交的默认最大长度为 10K 个字符。如果需要分析较长的文本块，可以跨多个相关提交拆分输入文本（例如使用标点符号或空格）。

提交图像的最大大小为 4MB，图像尺寸必须介于 50x50 像素到 2048x2048 像素之间。图像可以是 JPEG、PNG、GIF、BMP、TIFF 或 WEBP 格式。

安全性

使用 Microsoft Entra ID 或托管标识管理访问权限

为了实现增强的安全性，可以使用 Microsoft Entra ID 或托管实例 (MI) 来管理对资源的访问。

在创建内容安全资源时，将会自动启用托管标识。
API 和 SDK 方案都支持 Microsoft Entra ID。

静态数据加密

了解 Azure AI 内容安全如何处理[数据的加密和解密]。客户管理的密钥 (CMK)（也称为创建自己的密钥 (BYOK)）在创建、轮换、禁用和撤销访问控制方面具有更大的灵活性。此外，你还可以审核用于保护数据的加密密钥。

你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

Azure AI 内容安全支持的语言

文本审查

Azure AI 内容安全文本审查功能支持多种语言，但它只针对少数语言进行了专门训练和测试。

备注

语言自动检测

无需为文本审查指定语言代码，服务会自动检测你的输入语言。

语言名称	语言代码	文本审查	经过专门训练
南非荷兰语	`af`	✔
阿尔巴尼亚语	`sq`	✔
阿姆哈拉语	`am`	✔
阿拉伯语	`ar`	✔
亚美尼亚语	`hy`	✔
阿塞拜疆语	`az`	✔
Bangla	`bn`	✔
巴斯克语	`eu`	✔
白俄罗斯语	`be`	✔
保加利亚语	`bg`	✔
保加利亚语 (拉丁文)	`bg-Latn`	✔
缅甸语	`my`	✔
加泰罗尼亚语	`ca`	✔
宿雾语	`ceb`	✔
中文	`zh`	✔	✔
中文（拉丁语）	`zh-Latn`	✔
柯西嘉语	`co`	✔
克罗地亚语	`hr`	✔
捷克语	`cs`	✔
丹麦语	`da`	✔
荷兰语	`nl`	✔
英语	`en`	✔	✔
世界语	`eo`	✔
爱沙尼亚语	`et`	✔
菲律宾语	`fil`	✔
芬兰语	`fi`	✔
法语	`fr`	✔	✔
加利西亚语	`gl`	✔
格鲁吉亚语	`ka`	✔
德语	`de`	✔	✔
希腊语	`el`	✔
希腊语（拉丁语）	`el-Latn`	✔
古吉拉特语	`gu`	✔
海地语	`ht`	✔
豪撒语	`ha`	✔
夏威夷语	`haw`	✔
希伯来语	`iw`	✔
Hindi	`hi`	✔
北印度语（拉丁语脚本）	`hi-Latn`	✔
苗语（蒙古）	`hmn`	✔
匈牙利语	`hu`	✔
冰岛语	`is`	✔
伊博语	`ig`	✔
印度尼西亚语	`id`	✔
爱尔兰语	`ga`	✔
意大利语	`it`	✔	✔
日语	`ja`	✔	✔
日语（拉丁语）	`ja-Latn`	✔
爪哇文	`jv`	✔
哈萨克语	`kk`	✔
高棉语	`km`	✔
朝鲜语	`ko`	✔
库尔德语	`ku`	✔
柯尔克孜语	`ky`	✔
老挝语	`lo`	✔
拉丁语	`la`	✔
拉脱维亚语	`lv`	✔
立陶宛语	`lt`	✔
卢森堡语	`lb`	✔
马其顿语	`mk`	✔
马达加斯加语	`mg`	✔
马来语	`ms`	✔
马拉雅拉姆语	`ml`	✔
马耳他语	`mt`	✔
毛利语	`mi`	✔
马拉地语	`mr`	✔
蒙古语	`mn`	✔
尼泊尔语	`ne`	✔
尼昂加语	`ny`	✔
挪威语	`no`	✔
普什图语	`ps`	✔
波斯语	`fa`	✔
波兰语	`pl`	✔
葡萄牙语	`pt`	✔	✔
旁遮普语	`pa`	✔
罗马尼亚语	`ro`	✔
俄语	`ru`	✔
俄语（拉丁语）	`ru-Latn`	✔
苏格兰盖尔语	`gd`	✔
塞尔维亚语	`sr`	✔
绍纳语	`sn`	✔
信德语	`sd`	✔
僧伽罗语	`si`	✔
斯洛伐克语	`sk`	✔
斯洛文尼亚语	`sl`	✔
索马里语	`so`	✔
南索托语	`st`	✔
西班牙语	`es`	✔	✔
巽他语	`su`	✔
斯瓦希里语	`sw`	✔
瑞典语	`sv`	✔
塔吉克语	`tg`	✔
泰米尔语	`ta`	✔
泰卢固语	`te`	✔
泰语	`th`	✔
土耳其语	`tr`	✔
乌克兰语	`uk`	✔
未知语言	`und`	✔
乌尔都语	`ur`	✔
乌兹别克语	`uz`	✔
越南语	`vi`	✔
威尔士语	`cy`	✔
西弗里西亚语	`fy`	✔
班图语	`xh`	✔
意第绪语	`yi`	✔
约鲁巴语	`yo`	✔
祖鲁语	`zu`	✔