人工智能在内容安全的应用实践

【技术干货】2018-10-19

分享到

10月16日，2018年 AIIA人工智能开发者大会在苏州举办。会议邀请了国内外人工智能产业知名人物、国家政府主管部门、行业内顶尖企业、知名学者代表、开源社区优秀贡献团队及个人，共同交流了技术现状趋势、生态建设经验以及开源社区运营。

在《AI安全分论坛》，网易云易盾CTO朱浩齐受邀出席，并分享了《人工智能在内容安全的应用实践》主题内容。

随着政策的收紧，“内容安全”成为各大平台、网站的“心病”。2017年以来，因为内容安全问题而被勒令下架、停播、整改的事件相信各位还历历在目。伴随着人工智能的快速发展，以往依靠人工审核的传统方式已经无法满足庞大体量的平台、网站的需求。

那么如何依靠人工智能避开“内容安全”的坑？以下让我们一探究竟。

人工智能技术的初步应用

随着网络强国战略思想、加强网络内容建设等指导思想的推出和强化，内容安全已经成为互联网企业生存和发展的生命线。朱浩齐表示，国家多次强调互联网不是法外之地，利用网络散布色情材料、进行人身攻击、兜售非法物品等言行要坚决管控，因此绝不能任其大行其道。

然而，传统的内容技术已难以满足企业日益增长的安全需求，就拿图像来说，传统的色情识别技术为例，就经常会存在误判、错判、漏判等情况。

而基于深度学习模型的图像分类，则可以实现更高的准确率，以及图像、内容文本实时处理。实时图像处理的背后是这样的一个技术架构在支撑：下载集群和并行计算，然后再经过色情模型、暴恐模型、涉政模型、广告模型等判断处理，然后给出结果处理。这一套流程下来，平均时长仅在500ms以内。

在文本内容识别上，之前的传统技术存在着各种各样的问题：

o 变化多：垃圾变种形式多样，内容重复率低；规则系统需要及时维护庞大的规则库才能较好的拦截，人工审核量巨大。

o 内容短：1~2句话居多，词汇量少；常规的文本分类模型不适用。

o 多语义：部分敏感词有多重语义；容易误判正常语境下的内容

o 词序敏感：同样的词在不同词序下会有不同的语义；现有方法无法较好地处理这种问题。

而人工智能技术的应用则可以进行准确实时的文本处理，包括垃圾内容变种智能识别与修正、多意义上下文短文本垃圾检测、Deep Learning垃圾检测等。

具体是：

垃圾内容变种智能识别与修正，能够结合上下文，智能识别同音、拼音、形近、拆字、符号等变形内容。

通过事先收录的拼音库、形近字库、拆字库、符号库等字典，找出有变种嫌疑的内容，再结合上下文语境信息，使用Machine Learning技术判断是否变种并进行修正。

汉字有几万个，人工收集形近字耗时耗力，而且不全面。通过算法计算汉字的相似度，快速找出所有的形近字，再进行人工确认，保证精准度。

同样一个“威”信，一个是“威”信的变种，一个不是，必须结合上下文语境进行判断。

多意义上下文短文本垃圾检测，使用语义向量的方法识别垃圾语境，再结合垃圾关键词识别短文本垃圾，有效解决词汇量少、多义词等技术难点。

在这部分，基于深度学习模型的图像分类，易盾会使用自主研发的rankDoc算法自动挖掘出不同垃圾类别的数据集。另外，还会在不同垃圾类别的数据集上分别学习词向量模型，利用这些模型，结合机器学习方法在不同垃圾类别数据集上挖掘出每个词对应的上下文信息。此外在检测时，对包含敏感词的文本会根据上下文信息和人工定制的规则，判断敏感词是否为垃圾语义，并进一步给出全文的检测结果。检测样例如下所示：

Deep Learning垃圾检测，在语义向量、词性识别等NLP技术的基础上，利用RNN解决词序敏感问题。

易盾对人工智能技术的再优化和探索

但是仅依靠现有的人工智能技术是难以保证百分之百的内容安全的，干扰、特征小、尺度等因素下，昵称、头像、弹幕、打招呼、图床、足迹等等无孔不入的垃圾信息不断侵蚀着内容安全系统。因此，只有不断进化才能在技术层面加强防御实力。

为此，网易云易盾在人工智能技术的定制、算法、工程等方面进行了继续优化。

首先是提供了更为精细粒度的分类模型，筛选内容具体到6大类、20+场景、80+小类，在违规审查上更为严苛。此外，建立了人-物交互检测网络，关注人体有关部位及其附近物体，提取关键线索信息，能够较好地识别出“人-动作-物体”三元组信息。

人-物交互检测模型在场景理解上的表现，包括视觉注意力机制（attention）、视觉关系检测（visual relationship detection）以及“人-物”交互检测（human-object interactions）。通过持续的对抗训练，网易云易盾基于深度学习模型的图像分类技术不仅可以解决微小扰动对于神经网络的欺骗，而且可以对模型上线流程、对抗样本进行准确的稳定性评估。

此外，音频处理也是其中的重要影响因素。图像分类技术能够基于不同的语音场景分类，对语音事件进行检测和识别，并且返回文本进行文本过滤。基于以上的功能，网易云易盾还做了定制化的模型，根据业务需要，将图像处理分为预处理、模型、策略三阶段。预处理阶段输入图像特征分析或质量分析后，会根据需要进入基础服务阶段或定制服务阶段。模型阶段下，基础分类网络下数据将根据图像全局特征网略、一般网络、局部特征浅层网略进行模型整合和目标检测，定制分类网络则直接进入目标检测。

此外，网易云易盾也在语种识别、处理效率、安全标准提升、审核团队运营等方面不断实现能力提升，包括增加或即将增加藏语、维语、泰语、印度语等语种识别；提升直播、短视频的处理效率；密切配合监管部门，不断完善内容安全标准；并且不断优化审核系统、培养审核团队。

未来

未来，网易云易盾内容安全服务会遵守跨媒体智能、用户行为分析、高度定制化模型的技术路线，致力于实现更为精准高效的服务体系，满足不同企业的业务所需。

跨媒体智能：理解文本、图片、视频、音频的内容后再进行安全分析；用户行为分析：收集更全面的用户行为数据，配合用户内容数据进行审核过滤；高度定制化模型：紧贴监管部门政策法规、满足客户实际需求。

“作为网易云旗下的一站式安全服务，网易云易盾坚持提供可靠的内容安全服务。”分享最后，朱浩齐谈到，未来他们将继续认真打磨细节，保持足够的耐心来持续迭代产品，将这种工匠精神发扬光大。此外，“业务仍然重于技术”，技术会进步，业务才是核心。

网易云易盾依托团队20年的技术积累及对网易数十条业务线的保障经验，拥有海量特征库和成熟的安全机制，并结合超强云计算及人工智能技术，形成对游戏、金融、电商、娱乐等场景化解决方案，目前已服务集团内外上千家客户。

点击免费试用网易易盾内容安全服务

分享到

人工智能在内容安全的应用实践

热门标签

热门文章

Unity 引擎高危漏洞 CVE-2025-59489 深度解析：覆盖十年版本，游戏行业迎安全大考

多模态大模型综合防御体系，构筑金融安全 “护城河”

新规将至，网易易盾「AI生成识别」破局合规焦虑

国内首个！网易易盾参编国标《生成式人工智能服务安全基本要求》，领先助力行业健康发展

2024年度游戏安全报告发布：200+亿次风险检测背后的攻防全景