相约2021北京LVS，网易易盾分享半监督、自监督算法在内容安全领域的落地

【易盾动态】2021-11-08

分享到

近日，以“新技术，新机会”为主题的2021 LiveVideoStackCon 北京站如期召开。人与人、人与机器之间的交互将更加身临其境，视觉和听觉感官刺激前所未有的被满足，技术的升级正在创造想象中的新应用。作为多媒体技术领域的盛会，大会聚焦在音频、视频、图像等技术的最新探索与应用实践，覆盖教育、娱乐、医疗、安防、交通、制造、旅游、电商、金融、社交、游戏、智能设备、IC等行业领域。

众所周知，互联网平台在确保线上内容安全时需要极大的人力成本，相对于原来传统的有监督，半监督和自监督中的“半”和“自”代表只用一半的标签、一半的资源或者是不用标签也能达到很好的效果。

深度学习领域中，半监督、自监督算法通过借助无标签数据与无监督训练任务，可有效改善传统有监督算法中“泛化性能不足”、“模型过拟合”、“严重依赖数据标注质量”等问题。

网易易盾资深算法工程师崔若璇在2021 LiveVideoStackCon 北京站发表技术分享，她总结了半监督学习领域的发展脉络，并展示半监督、自监督算法在网易易盾数字内容风控业务上的创新应用，希望为听众在“降低数据标注成本”、“提升深度学习模型效果”方面带来一些启发。

本次的分享分为三大部分：

• 网易易盾在数字内容风控领域的业务背景

• 半监督和自监督近年的前沿算法思想，以及对内容风控业务的适用性分析

• 网易易盾在新算法以及业务解决方案上的实践

以下为演讲全文：

一、数字内容风控下的AI价值

1.1业务背景

随着移动终端5G的快速发展，内容生成的速度加快，内容审核的要求也越来越高。也就是说，内容业务端在风控过程中，面对的数据量将出现“大爆发”。其次，面对的数据形式也从以往的以文本、图像为主，演变为现在的文本、图像、视频等各个数据类型。近两年，政府加强了内容监管方面的工作，这对内容风控的从业者来说，不仅是一次好机会，也是一个大挑战。

关于网易易盾的业务背景，我们致力于对“色情”、“低俗”、“广告”、“暴恐”和“违禁”等违规内容进行智能检测与处理，面对的数据任务形式包含但不限于图像、视频、语音和NLP。

1.2关键点

作为数字内容风控行业的领军者，网易易盾多年来在内容风控领域积累了丰富的业务和技术经验。对于内容风控任务的关键点，我们总结为以下几方面：

1、识别内容敏感：内容风控领域经常面对敏感内容，这部分内容会对网络受众和审核人员造成伤害。

2、开放式攻防场景：做内容风控需要经常与黑灰产业斗智斗勇，所谓“我在明，敌在暗”，黑灰产的攻击形式层出不穷。因此，内容风控不是一劳永逸的工作，而是一项需要持续不断地考察问题、创新解决的挑战。

3、极致的识别效果：客户对内容风控的要求非常高，毕竟安全无小事，所以在一些任务特殊的、范围广、细分繁杂的内容风控领域，对产品的识别效果要求可谓极致。

4、要求敏捷响应：凡是涉及到安全问题的业务都至关重要，我们的全部技术团队、产品团队、以及市场和销售团队，都要具备敏捷响应的能力。

以上四项关键点也映射出进行内容风控算法设计时遇到的四个痛点：

1、由于识别内容敏感，收集、标注数据过程存在着成本高、伤害大、数据量少的问题。

2、开放式的防御场景经常会遇到新形式的攻击类型，这要求整个团队要具有超高的业务洞察力、全面的算法技术储备，才能高效地给出最合适的解决方案。

3、业务需要我们具备极致的识别效果，但是目前常见的有监督训练算法已经面临数据积累和效果提升的瓶颈，这也推动着我们必须从算法训练角度做出突破。

4、内容风控领域离不开敏捷的反应。正如前文提到的，业务安全领域数据收集难度大，这会拖慢整个算法优化进度。

1.3常见AI算法点评

此处向大家简要介绍下常见的AI算法及其特点。目前的AI算法主要包括两个重要环节，一个是数据收集，另一个模型训练（常见的训练方式是有监督训练）。具体来说，AI算法迭代循环一般经历以下几个环节：遇到问题、收集相应数据并标注、扩充数据集进行模型训练，从此遇到新问题后再循环往复。

可以看到，以上环节之间形成一个闭环链条，循环往复，理想情况下算法效果会至臻完美，但实际操作中整个过程成本高昂、进展缓慢。同时，算法效果也极大地依赖于数据的收集、标注和质检质量。再加之有监督训练存在天然的弊端，“过拟合”、“泛化性能差”等问题也会限制模型的训练效果。以上种种困难集中在一起，难免人工智能经常会被诟病为“有多少人工就有多少智能”。

二、前沿深度学习算法简述

了解了当前业务、技术的背景情况和痛点问题，我们在此为大家带来半监督、自监督学习领域交出的一份“解题答卷”。此领域的解决方案，也是主要包含了数据使用、模型训练两大重点，接下来我们就从以上两点出发为大家简要介绍半监督、自监督方法为何有效。

2.1算法介绍

首先是数据层面。（a）图以一个二分类任务为例，展示了几种训练方法中数据标签的不同使用方式。圆圈代表数据样本，其颜色代表标签信息（红蓝彩色代表标注的分类标签，灰色代表未标注，带线条阴影的彩色代表标注标签在某些阶段使用并在某些阶段不使用；圆圈中一条黑色的线代表两个类别的决策边界）。简单来说，半监督和自监督就是对数据标签进行花样使用“时而用、时而不用，可用可不用”。

其次在模型训练层面，半监督和自监督相比有监督有什么独特之处？我们经常遇到的是右下角这种与实际业务强相关的模型训练任务，比如违禁图片分类、敏感元素检测与分割等。

举个例子，现在要对暴恐元素进行识别，我们最简单的方案就是将其简化为一个暴恐元素检测任务，需要进行暴恐元素数据标注、检测模型训练等步骤，其中第二步可以直接借鉴当前很成熟的检测任务来进行训练。

而半监督和自监督算法则会引入新的训练任务，如左上角所示，它会设计一些辅助训练任务，而这些任务可能看起来和业务需求毫不相干。比如预测图像块旋转角度、预测图像块是否来自同一张图、将一张图打乱顺序后重新拼图等。

还是以“暴恐元素识别业务”为例，自监督训练过程不需要对数据进行暴恐元素的标注，它会对图片进行特定角度的旋转，然后让模型学会预测这个旋转角度。看似这个学习过程对实际业务没有任何帮助，但其实半监督和自监督是通过辅助任务来加强模型对于通用特征的学习能力。

也就是说，我们先不告诉模型学什么，先让模型自己去看数据，总结规律，有一些懵懂的认识，打好基础。然后再借助少量有标签数据，进行业务相关的针对性学习。

我们再用两个浅显易懂的例子来展示半监督和自监督的学习方式：

半监督就好比是“助教借我抄作业”。所谓“助教”，就是我们针对这个新的习题，没有权威的标签，也就是没有老师给的权威答案。但半监督可以用现有的标签训练一些不是很完美的模型来打伪标签，这个伪标签就类似于助教给的参考答案。半监督在让学生去模仿这些参考答案，从而获得学习能力。

而无监督就好比是“学生之间私下对答案”。没有标准答案，那我们几个同学都去把这些题多做几遍，大家校对一下做题过程和思路，从而能归纳出一些特点和规律，对知识有一些懵懂的认知。

2.2“数字内容风控”适用性分析

回归到业务上，半监督和自监督算法为什么适用于“数字内容风控”业务？

第一，“更合理”：半监督和自监督很符合人类的认知方式，就像婴儿学习东西时不是每一样东西都要拿着去问父母、问老师，它的标准答案是什么，而是在见到了很多东西后，能够自己总结出它们的特点。

第二，“提效果”：半监督和自监督能够利用海量容易获取的无标签数据，并引入更多维的模型训练任务。有这两方面加持，它可以更大化地发挥人工智能“数据驱动”的优势，从而提升模型的效果和泛化能力。

第三，“提效率”：半监督和自监督极大缩短了传统优化过程中数据获取的周期，从而提升整个算法迭代效率。

第四，“减成本”：还是上述提到的数据问题，半监督和自监督很大程度上减免了人工标注、质检的成本，也减少了内容风控业务数据对人工的伤害。

三、易盾创新实践案例

3.1前沿算法落地

对于半监督和自监督算法的落地，网易易盾采取了两种形式的应用，在不同业务中都取得了优异表现。

第一种是串联尝试，即上图右侧流程图中间的三个串联训练过程：两个自监督训练和一个半监督训练。首先是在ImageNet数据域上的自监督训练，旨在提升该数据域上模型的通用特征提取能力；其次是在实际业务数据域上的自监督训练，算是一个数据域的过渡，旨在提升业务数据域上模型的通用特征提取能力；最后是一个针对特定业务任务的半监督训练，旨在针对性地提升模型对于特定业务任务的表现。

上述串联结构的创新点总结有：

首先，我们为数字风控任务针对性地引入、设计自监督训练任务。比如在“暴力恐怖”识别任务中引入无监督辅助训练任务，提升模型对于业务数据的通用特征提取能力，不再受限于任务本身。结合上后期的半监督训练微调，算法整体能达到更好的效果。

其次，我们对内容分控业务，针对性地设计了伪标签数据的筛选规则。设计过程借鉴了Meta learning等半监督前沿算法中的一些思想，比如怎么选择无标签数据集？选择之后怎么用？用完之后新数据怎么回流？这些问题都可以通过模型自动化确定规则。

第二种尝试是并联结构，即不同任务并联地同时进行训练。和图中UDA算法的想法类似：左边是传统的有监督的训练Loss，右边是一个或多个无监督的训练Loss，在具体训练时我们借鉴了FixMatch、Self-tuning等多篇研究成果，并根据内容风控业务特点做了针对性修改，从而多种Loss协同共同训练。

总结一下以上两个实际落地的算法结构，网易易盾将半监督和自监督上算法应用于数字内容风控领域时，聚焦于三大主要工作：

一是，开创性地引入和设计与业务特点相关的无监督训练任务。

二是，借助了丰富的数据资源。此处“丰富”不仅指大量业务数据，也包含海量的业务以外的如公开数据集，甚至ImageNet1000分类等。

三是，我们开创了新的迭代流程。传统来看，一个算法的迭代流程就是“收集数据-打标签-模型训练”几步。在引入半监督和自监督的元素以后，算法迭代流程改良为自动回流数据、自动筛选合适的数据进入训练、自动进行训练方案的设计。

3.2效果展示

接下来，我们简单展示一下借助半监督、自监督算法，我们易盾产品在一个检测任务上的优异表现。

左侧是奥运会场景上的国旗检测，可以看到即使出现很多次国旗遮挡的情况，模型都能敏捷地检测出国旗位置。

右侧也是国旗检测，其中不仅涉及到目标在不同方向的转换，还有小目标检测的问题，可以看到检测算法都表现良好。

在易盾官网，我们为企业客户提供了免费的网页版“内容检测”体验，其中涉及到的内容非常多，比如广告过滤、色情过滤、暴恐过滤。以下是两张检测结果示例：

两张图检测出来都是广告，不同的是，左侧100%命中了通用广告，右边疑似手写体广告。这个结果也是因为我们在实际攻防布控时，不是用一套简单的规则，输出一个简单的标签，而且实际上对数据、甚至对数据来源进行了全方位、多角度的分析，可以输出细化的多维度的标签。

四、总结

本次分享主要从技术的角度，简单地介绍了半监督、自监督的前沿算法与其在网易易盾产品中的应用。不过由于半监督、自监督训练方法的通用性，只要是用到AI模型的场景，都可以用今天讲到的技术去优化。希望本次分享能为不同领域的实践者带来启发。

分享到

相约2021北京LVS，网易易盾分享半监督、自监督算法在内容安全领域的落地

热门标签

热门文章

社交App交友“防渣”指南

网易易盾接入DeepSeek，数字内容安全“智”理能力全面升级

2024年度游戏安全报告发布：200+亿次风险检测背后的攻防全景

“AI换脸”骗过人脸识别？黑产攻击新手段应如何防御？

网易易盾亮相FCIS 2024网络安全创新大会，分享AIGC内容安全体系建设经验