人力成本减少30%，内容审核准确率99%，百度大脑全新发布人机协同审核管理平台

人力成本减少30%，内容审核准确率99%，百度大脑全新发布人机协同审核管理平台

2024-12-06 18:38

5 月 15 日下午，在百度大脑开放日的互联网内容安全线上专场中，百度 AI 技术生态部高级产品经理 Nathan 为大家分享了百度大脑在内容审核与应用场景方面的技术与经验，并宣布了百度大脑全面人机协同审核管理平台的全新发布。

说到内容审核，大多数人心中都会有一些概念。比如「黄赌毒」、「三俗」、「暴恐」等内容，都是互联网内容安全领域的高发问题。

内容审核是企业运营中的「关键一环」，但在这个环节上，却有着诸多挑战：

首先，人工审核存在培训成本高、流动性大、评判标准不统一等问题，并且与机器相比效率更低，对审核的人员本身来说，也极容易造成心理疲倦和精神压力，但同时人工审核也存在更加准确、灵活的优点。

其次，对于机器审核来说，关于互联网内容的监管和业务审核规则更新频率较快，适配难度比较大。根据变化的审核规则而频繁地更改代码、调整审核策略会使得整体操作成本变高，与此同时，针对不同的规则来制定模型也需要大量的训练数据，从现实角度来看具备成本高和难度大的缺陷。

当然，最好的办法就是人机协同。根据此前的业界实践来看，想要搭建高效的人机协同审核系统并不简单，从建设到打通，需要相当长的周期以及相当多的机器资源，并且对任务分发和系统设计方面的要求也非常高。

Nathan 介绍说：「基于百度大脑全面的 AI 技术积累和广泛的业务经验积累，我们希望利用 AI 审核能力帮助企业进行高效、低成本的审核，助力内容风险管控。」

在图像审核方面，百度大脑设置了色情识别、广告识别、恶心图识别、违规行为等 14 项细致的审核维度，并预置了结合监管要求实时更新的违禁图库。

在文本审核方面，设置了色情、政治敏感、恶意推广等 8 项审核维度与用户评论、注册信息、视频弹幕等多个审核场景。此外，大家在浏览网络内容的时候，常常会发现一些以符号、数字、同音字代指的违禁词汇，依靠预设的「用户自定义黑词库」，这类内容也会被加入审核范围之内。

在语音审核方面，百度大脑也设置了 9 项维度。对于清晰度较高的语音内容来说，平台使用语音识别+文本审核的模式进行鉴定，但值得注意的是，对于枪声等内容来说，平台则使用声学模型进行审核，以减少遗漏。

当然，内容审核领域的规则是相对复杂的，这也是为什么人工审核一般会比机器审核质量更高的原因。为了让审核更加适配业务需求，百度大脑打造了一套可供自由组合的「标签体系」，对于用户来说，重新排列组合这个单个标签，就可以让模型实现「量身定制」的效果：

具体来说，比如色情类别下，就包括 20 个标签，但对于不同场景来说，「色情」的范围各不相同。在视频直播和母婴论坛中，「性玩具」就会被划入「违规」的行列，但在电商中则会通过审核；而除了母婴论坛之外，任何的「儿童裸露」都会被认定为「违规」内容。

让审核规则的配置更加灵活、方便，这也是百度大脑开放平台的内容审核业务策略之一。在此基础上，Nathan 宣布了百度人机协同审核管理平台的全新发布。

「人机协同」是其亮点之一。以短视频审核为例，在这一审核流程中，视频内容将首先经历「AI 机审」阶段，包括视频帧与音频方面的内容审核，之后将进入人机协同审核管理平台。最终的审核结果将是机审结果与人工复审结果的综合判断。

相比于传统的人工审核流程，该平台的「人机协同审核」可降低约 30% 的人力消耗，而且能够保障 99% 的准确率。

包括在机审阶段，内容将按照机审结果区分高危和普通人审组，「普通组」的违规内容比例更低，可降低审核人员的精神压力，提升审核速度，而「高危组」的内容违规比例较高，会交由更具经验的审核人员处理，有利于审核效果和速度的双重提升。

按照惯例，Nathan 也介绍了近期百度大脑开放平台最新开放的多项 AI 能力：

在自然语言处理方面，新闻线索溯源、资讯舆论态度、智能文档分析 3 款产品全新上线，地址识别服务、UNIT 平台则进行了升级。

在文字与图像识别方面，全新发布了 iOCR 缴税回单识别功能，通用文字识别、图像清晰度增强、色情识别模型三项功能进行了升级。

目前，人机协同审核平台已经正式上线，人力外包服务商与内容生产企业均可申请测试人机审核平台：https://ai.baidu.com/solution/oasis