场景多、变种快、粒度细，网易易盾是如何有效解决这些内容安全难题的？

【技术干货】2019-03-21

分享到

广电一年一度的开年大展CCBN已经拉开帷幕，3月19日，2019IPTV&OTT产业高峰论坛在北京维景国际大酒店召开。

网易易盾人工智能首席科学家方正

作为产业一年的风向标，“2019IPTV&OTT产业高峰论坛”能帮助业界感知政策、技术、产品和市场走向。在这个背景下，网易易盾人工智能首席科学家方正受邀参加了本次高峰论坛，分享了互联网行业的发展、常见有害信息、内容行业面临的技术难题，以及网易易盾是如何进行解决。

以下是本次演讲的实录：

各位领导、各位来宾，我的分享主题是人工智能与晴朗网络空间。由于我的出身就是工程师的背景，下面介绍的内容可能有些偏重技术方面一点。

最近几年，随着互联网技术和通讯技术的发展，越来越多的人开始使用互联网。据统计报道，2018年中国的上网人数首次超过8亿，平均每周人均上网时间也超过28小时，人们开始把大量的时间花在网上，阅读新闻、观看电影电视剧、聊天交友中，上网娱乐已经成为了生活当中不可缺少的一部分。另一方面，手机、平板电脑和移动终端设备的普及，也成为了互联网飞速发展的重要推动因素。现在大家只要有一部手机都可以成为记者、成为主播，这实现了无数人登台表演、受人关注的梦想，但这也为垃圾数据的制造和传播创造了更多的条件。

常见有害信息

平时我们的上网过程当中，大家经常会看到各种各样的垃圾数据，比如常见的色情、谩骂、违禁和广告，比如在视频网站当中大家经常看到粉丝对某个明星进行谩骂攻击，还有不明真相的网友对政府机关进行恶意点评。代开假发票的信息、六合彩赌博信息，这些广告也是无处不在。让我们比较头疼的是色情视频和节目，也是对正在成长发育的青少年造成了很大的身心危害。

认识到这一点，国家和政府在2015年就提出建设绿色健康网络空间，已经把网络信息安全确定为重要的国家发展战略，但是依靠传统的人工审核内容管理机制已经不能满足现在互联网那种海量数据的场景实际情况要求。我们经常在新闻当中看到各种各样的网站、APP，因为存在一些违禁内容被下架、关停。

而且最近几年这类新闻也是越来越多。对海量数据进行有效的内容安全审核过滤，已经成为各个互联网公司需要面对和需要解决的技术难题。当然，这也促使我们不断思考怎么在技术上突破改进，实现和保障互联网海量数据的内容安全。

通过平时的实践分析，针对网络内容安全，我们总结归纳几个相对传统文本分类、图像识别不同特点和难点，主要概括为以下三个方面：1.应用服务的场景更多，2.处理的数据变种更快，3.检测粒度更细。

产品应用场景中的多意义

不同于平时我们看到的新闻内容分类和电商情感分类，那些主要是针对单一的互联网产品，互联网内容安全往往要处理的应用场景多种多样。比如我们经常看到的博客、弹幕评论、小说、客服对话等等各种产品和场景，甚至有时还会有文言文的情况。也正是因为这些应用场景的多种多样导致了多义词现象的普遍，比如苹果和土豆，我们以为就是平时的水果蔬菜名字，但是互联网新闻报道当中正好对应着苹果手机、苹果电脑、优酷土豆这样的视频网站，机器理解就会造成很大的偏差，另外一些英文单词的缩写也会造成一词多义的现象。AV这个词在弹幕评论当中大家一下子就会想到是成人视频的意思，但是在做内容安全当中会发现一些音乐发烧友用AV这个词代表的就是音频（audio）视频（video）设备的意思，所以对内容安全检测造成很大的困难。

数据变种快

而第二个特点，内容安全当中遇到的数据变种非常快，主要有两方面内容：1.数据自身会不断变化，2.人为因素造成的变化。数据变化主要是因为社会不断发展，一些词语具有新的含义，产品也具有新的外观，这就导致数据分布产生巨大的变化，原有的内容安全系统的效果和性能就大打折扣。比如之前发生的红黄蓝事件、法国黄背心运动，这些原本只是表示颜色衣服的词在现在的互联网环境当中具有了新的含义。人为因素造成的变化较快，主要是因为广告信息的发布者一直在不断地寻找内容安全系统的漏洞，不断添加干扰符。互联网内容安全相对数据挖掘人工智能竞赛具有更多的难度和挑战，因为那些竞赛当中处理的数据都是静态的、死的数据，但业务当中遇到的大部分数据都是动态的、活的数据，也会不断变化。

检测粒度细

第三，内容安全中检测粒度更细的特点，也包含两方面的内容：1.内容语法结构上的粒度细；2.检测输出结果标准程度上的粒度细。内容安全检测任务中要求精确到具体的内容语法结构，需要区分具体主语宾语指的是什么。比如谩骂攻击的垃圾数据检测中，需要区分是对当代人物的谩骂，还是对历史小说虚构人物的谩骂，这就有别于传统的新闻内容分类，只要一篇文章的全局主题类别进行识别就行，而内容安全当中需要有非常细的检测粒度。另外弹幕评论的场景也大大提高了垃圾信息的检测难度，有些用户使用的语言习惯相当随意，经常缺省一些主语宾语，甚至会使用错别字、同音词来借代，这也进一步提高了检测难度。而另一方面，检测结果标准程度上的粒度细，主要原因是：接入和服务的客户多种多样，有的客户在违禁定义的标准各不相同，比如小学生作业帮APP针对色情的标准是严格零容忍，绝对不能出现，但是在小说艺术作品和影视作品当中，针对裸露的描写和镜头有一定的容忍性。因为不同的客户要求不一样，同一款的内容安全系统分类器就很难满足大家不同的需求。

除了前面介绍的几点内容安全上存在的特点和难点，作为一个中小企业，进行内容安全系统建设面临的困难和挑战也更多。数据角度方面，中小企业往往没有海量的数据，但是数据上的缺乏就会导致模型内容安全系统效果的局限性和滞后性。前面提到数据不断动态变化，模型是会随着时间变化性能下降的，如果不投入人力、物力进行维护的话就难以维持原有的效果。中小企业进行自建内容安全，这部分负担其实也非常难以承受。

正是看到这些行业背景和市场需求，网易基于二十一年的内容安全数据和技术积累，结合海量特征库，运用人工智能、大数据技术，面向市场推出网易易盾内容安全服务。针对前面提到的各种特点和难点，易盾的工程师针对性地进行了技术开发并且予以解决。

针对前面提到的场景当中多义词现象的问题，易盾自主研究了语义池挖掘算法，通过挖掘关键目标主题下的语义池，训练不同的词向量模型，确定上下文语义关系图，实际应用当中根据这些关系图确定和定位具体多义词表示的是什么含义。

针对数据变种快的问题，易盾的工程师也从特征和模型进行针对性的开发。从特征角度的技术解决方案主要针对广告变种问题，比如广告发布者经常添加同音词、形近词进行干扰，易盾运用大数据算法技术挖掘这些词的使用规律，并对每个词建立偏旁部首笔画属性特征，通过联合聚类构造出高阶语义智能词库，辅助实际的有害信息过滤检测器，提高内容识别的效果。

从模型角度的技术解决方案，主要针对敏感社会事件的检测。易盾开发在线学习算法，实时捕获新环境下产生的新特征新含义，使得模型特征和参数能够及时更新、进化和调整，这样减缓模型检测性能下降的问题。

按照检测力度细的特点，这里简单举一个例子：怎么满足不同的客户在违禁标准上不同的问题，我们知道不同的客户产品内容垃圾违禁标准各不相同，易盾开发跨领域的知识迁移学习算法，挖掘不同产品之间的共性特征和个性化特征，针对每个产品和行业领域建立不同的分类器，通过联合训练机制最终提高模型适应度和准确率，为不同客户产品提供个性化的内容安全服务。

前面提到的都是针对产品特点的技术解决方案，作为第三代内容安全技术核心的人工智能技术，其实已经广泛应用到现在易盾的各种有害信息过滤场景。人工智能技术相对传统机器学习算法有着明显的优势和特点，比如具有相同词语的两句话，词语的顺序不同，表达的意思也会不同，但是按照传统的机器学习算法进行数据处理时，经过独热编码后，会得到相同的数据向量，这就不能识别两句话的不同意思。而人工智能技术当中RNN、LSTM神经网络模型可以针对句子语序结构进行理解，也对词语序列进行编码，从而能够识别两句话的不同意思，最后提高垃圾检测的精准度。

除了内容识别领域，人工智能技术在其它方面也有很多应用。最近新闻中大家一定看到很多人工智能技术进行视频换脸的报道。根据新闻报道，现在效果已经达到以假乱真的程度。很多热心网友都表示很担忧，担心这个技术的滥用可能会对用户验证登录、新闻视频的真实性造成危害。其实并不需要这些担心，其实人工智能技术在合成这些假视频假脸的同时也能对它们进行有效的识别。尽管新闻报道当中这些图片效果都是非常逼真，但还是存在不少漏洞和细节。比如头发、背景文字、常识逻辑特征当中，从视频里逐帧来看都有不少细节破绽和漏洞。合成的人脸头发效果经常会有种不自然，很僵硬的感觉，没有自然的那种柔顺的感觉，就像泼上去的油漆一样，而且合成的假脸的背景文字效果经常是玄幻或者模糊不清的，和真实的人脸图片大不相同。另外，我们知道人脸是具有对称性，合成的假脸还远远达不到那么完美，可能会有一只眼睛大一只眼睛小的问题，有的女性脸上还会有男性的胡子。

当然，人工智能技术不仅能够识别刚才我们看到的这些肉眼能够看出的细节和漏洞，人工智能技术在细节捕捉的能力方面远远超过人类，可以识别出更多人类肉眼看不见的细节漏洞出来，从而实现视频内容的检测。上图展示的就是人工智能当中的神经网络，CNN处理图像内容进行识别的过程。神经网络会先探测图片内容当中边缘信息，根据边缘信息探测图片中的纹理信息，然后根据纹理信息进一步探测更高级、更抽象的模式信息，就这样通过网络一层一层的信息抽取和传递，识别图片内容所需要的各种细节部分都被神经网络学习到了，神经网络的内容识别能力最后甚至会达到超越人类的水平。从上面几组热力图中可以看到，神经网络觉得最敏感具有嫌疑的部位，其实和肉眼观察的常识都相当吻合。

除了CNN卷积神经网络，其实人工智能技术中的对抗生成网络GAN也是识别这些合成视频、假脸视频的一个有效技术。我们来看对抗生成神经网络技术，它包含了两个部分的结构：一部分是生成网络，另一部分是鉴别网络。这样说可能比较枯燥，举个例子，《射雕英雄传》大家都看过，周通的绝技就是左右互搏，对抗生成网络就和这套武功差不多，生成网络是左手，鉴别网络是右手，左手不断出招制造各种假脸假视频，右手不断拆招识别这是真脸还是假脸，就像练武功一样不断迭代，神经网络的性能效果就能被训练成远远超过人类水平，前面提到的这种假视频假脸基本上都能够被识别出来。

易盾在技术的研发和创新也多次受到了国际同行的关注和认可

值得一提的是，易盾实验室的工程师在2017年就对这项对抗生成网络技术做了研究，并且已经把这项技术应用在现在的视频内容检测、图像内容检测的服务中。当年年会展示的黑科技当中，实验室的工程师还把明星演员的脸合成到自己新年拜年的节目当中，那个视频效果来看也已经达到以假乱真的逼真效果。另外，易盾在内容安全方面的科研、创新和努力也有多次受到了国际同行的关注和认可，2017年易盾的工程师就关于对抗生成网络的两项研究成果进行了论文发表，在当年的国际人工智能计算机视觉顶级大会中还做了分享和介绍，和国际学者同行关于技术问题进行了探讨和交流。

除了科研方面，易盾工程师对市场的洞察和用户的需求方面也非常重视，通过不断研发来满足各种平台和企业客户的需求。比如，传统的音频检测方法需要将音频信息转化为文字信息，然后对文字信息再进行审核过滤，但是随着市场动态变化，我们发现很多直播平台中出现了很多娇喘声、呻吟声的色情数据，按照传统的方法无法检测识别出来。看到这种需求，我们的工程师及时调整研发方向和内容，开发了声纹检测技术，不需要通过文字的转换，就可以检测娇喘声、呻吟声的色情类别数据。目前易盾音频检测还可以支持多种国家的语言，现在支持的语言包括英语、泰语、印尼语等。

自从易盾面向市场以来，我们的工程师一直保持着积极进取、不断开拓的心态，通过不断的迭代研发，为更多的企业和客户带来更好的服务质量，受到了行业的广泛好评和认可。2018年易盾为行业检测的数据量就已经达到3000+亿条之多。

目前易盾接入和服务的客户已经达到数千家之多，包括知乎、OPPO、VIVO、一直播、魅族、携程等。相信在不久的未来，易盾在互联网内容安全方面的技术肯定会达到更高的水平，我们期待着能够与更多的机构合作，也希望通过合作为更多的企业和客户提供更多优质的服务和产品。

谢谢。

场景多、变种快、粒度细，网易易盾是如何有效解决这些内容安全难题的？

热门标签

热门文章

Unity 引擎高危漏洞 CVE-2025-59489 深度解析：覆盖十年版本，游戏行业迎安全大考

多模态大模型综合防御体系，构筑金融安全 “护城河”

新规将至，网易易盾「AI生成识别」破局合规焦虑

国内首个！网易易盾参编国标《生成式人工智能服务安全基本要求》，领先助力行业健康发展

2024年度游戏安全报告发布：200+亿次风险检测背后的攻防全景