央视网网络安全部副总监黄乐谈央视网内容安全建设实践

导语:2019年12月19日,网易易盾在北京举办2019内容安全智能体系发布会,央视网网络安全部副总监黄乐参加了本次发布会,并做了《央视网内容安全建设实践》的分享,讲述了央视网内容安全架构的演进历程、整体解决方案以及对未来的探索。在征得黄乐本人同意后,本风控官将当时的演讲附录如下,希望能给各位的内容安全建设带来帮助。

以下为演讲实录:


央视网网络安全部副总监黄乐

大家好,我是来自央视网网络安全团队的黄乐。首先非常感谢网易,让我们有这次机会,能跟大家在这儿分享一下央视网的内容安全建设体系。

其实,内容安全早年间在我们的整个工作体系里面,算是一个副业。之前我在某沙龙上也讲过,攻防好像越来越没前途了,我们要贴业务,怎么贴业务呢?对于央视网来说,我们的核心就是内容,因为它更偏渉政这一块,所以我们从2015年开始,去跟安全的厂商,包括网易在内的公司聊。那么经过这几年越发成熟,因此今天的分享,会先讲讲我们的发展历程。

我们整个的演进历程,其实是来自于威胁。因为做安全,基本上都是事件驱动为主,现在也是事件驱动。我们当时遇到的问题有:外部劫持、外部入侵、恶意发布、宣传把控,基本上大家可以看到,前两个是偏外部的,后两个是偏内部的。

外部基本上以前最多的是劫持,尤其我们在播到欧洲杯或者是世界杯时,黑产是最活跃的。后来我们在HTTPS改造到一定阶段之后,压力开始从外部的劫持转向到内部——因为它劫不了了,就开始看直接拿你系统权限是不是OK。

对于内部最主要是恶意发布,这是现在安全圈大家越来越多讨论的问题。其实说白了就是抓内鬼,我们遇到过两次类似的情况,但总算是审的及时。内部的恶意发稿,我们一度非常头疼。恶意发布是有一定宣传导向问题,是发布者无意的,他可能不知道什么该怎么说。包括像某些会议,会有很多的规则,某个词是个黑词,你写上不行,但是这种报道本身没问题,只是这种说法是有问题的。 

面对这么多威胁,最早在2014、2015年的时候,我们去跟央视的总工请教。其实他不懂安全,但是他给我们一个指导思想——我们是一个网站,最大的威胁不就是网页别被篡改吗?现在满大街都是页面防篡改的系统,我们上一套就能解决,为什么不做呢?领导也发话了,后来就去调研了下。

于是从2015年起开始调研商业网页防篡改产品,包括:启明、天融信、安恒、知道创宇、深信服等。但后来发现是解决不了问题的,一个是到底是修改还是篡改,很多安全厂商的方法就是用WAF做文件保护,那这种方法没法判断是修改还是篡改的。最主要原因是央视网首页在频繁的时候,或者有大波动的时候,一天更新10次、上百次一点都不稀奇,总是这种文件保护的模式,不太不现实,这是第一个。第二个是时效性,在早些年有些安全公司说,我们可以上人审,我问他时效性,他说半个小时,可以想象如果官媒被篡改了后,半个小时才发现,这个就凉了,因此时效性也是个问题。防篡改产品不OK的第三个原因是分布式上CDN的问题,所以我们发现当时看到的商业公司所谓的网页防篡改的产品,在央视网目前的架构或体系下几乎没法用。


内容对比系统 

基于上述情况,我们当时做了内容对比的系统。对比的逻辑,画的有点复杂,但总体逻辑很简单:从发布系统拿到第一手的发布的内容,然后在CDN端拿模拟用户去访问,两个内容做对比,如果静态内容比对不上的话,就知道问题出在哪儿,推给相关的人去审下。

一般来说绝大部分情况是能对的上,对不上的基本上是时效性的问题。我们当时设计的这个系统比对起来简单,但是当时处理挺复杂的。我们其实内部讨论时,就发现了有两大问题,第一个问题就是静态的内容可以,动态的怎么办?尤其是广告,比如说正在报道国家领导人,边上出了网络游戏的广告……所以后来我们把整个广告位在有些频道上干脆就撤了,因为动态广告几乎没法审。另外一个问题是恶意发稿,我们的逻辑是:发布系统发出来的东西,我们把它当成最正确的。但是如果发的就是错的呢,那怎么办?其实这两个问题是当时我们的系统解决不了的(某些场景下,内容对比系统还行,因为之前经常有劫持央视网JS的,我们拿系统比对JS,效率还是不错的,因此这套系统还在内部跑,只是在某个纬度上跑)。

后来我们开始着手广告的问题,广告的问题是动态接口,到目前为止,我们都没有特别好的方法去解决。对于我们发布的内容或者是UGC的内容,后面其实都是在跟网易聊的模式——技术+人工。编辑也好、黑客也好,只要是违规的内容,通过内容审核审出来,最典型的就是赌博、色情的内容。 


发布系统保护、内容分析是技术层面的;在应用层面其实也有两个方向,一个叫做辅助审核,刚才网易易盾CTO朱浩齐、产品总监饶晓艳也讲了很多,这里不赘述;第二个其实就是安全发布,后面会重点去讲下,先回到发布系统保护、内容分析。发布系统保护是应对入侵的,网络安全行业都有大同小异的标准,从安全技术、安全制度到安全运营等,就不多讲了。内容分析上,我们最早接触了网易,后来还测试了包括BAT、商汤、同盾等。

后来我发现标准的接口里有两个问题,是需要我们自己再继续去解决的。第一是接口碎片化,审文字还是审图片、视频,你得告诉它,这是不同的接口。甚至早些年,像鉴黄、暴恐等,需要分不同的接口,这里碎片化非常严重(当然,现在碎片化情况的好多了)。另外一个问题是审出的内容是相对很标准化。比如国家领导人的照片,大多数内容审核服务商识别出来的是违禁内容,但是对于央视网来说,关于国家领导人的报道肯定不是违禁内容,所以这样的内容安全服务我们是不能拿来直接用的。因为我们直接拿来用,央视99%的内容都是不合规的。


所以我们需要创造一套系统来解决这些问题,上图从右边整个的一套流程,是我们当时自建的,从获取内容开始到内容拆分,再到给各个系统的接口。系统会把它的审核结果拿回来,然后放到结果分析平台里,再把我们自己的规则加上。当然,这里的工作其实就不是安全团队或者是技术团队就能干的活了,是有内容部门要参与进来的。

曾经我们总编室审出来一篇违规的文章,那篇内容我读了三遍,不知道错在哪儿。我们没有政治敏感性,内容部门的介入是非常必要的,把规则或者逻辑讲清楚,然后我们再去把规则放到系统里。比如说要去报道某官员落马,但已经报道完了后,他后面能不能出现,规则肯定要内容部门指导,技术部门是不可能决定规则的。当然更复杂的也有,具体就不讲了。反正就是有些规则可以固化,而有些规则是需要我们不断想办法的。


为了给辅助审核的人员减轻压力,其实前期在准确率还不确定的情况下,我们是将机审和人审并行,看结果怎么样(当然,准确率达到一定程度之后,机审就串到系统里了)。这是为什么呢?主要是在早期的时候,我们发现有个悖论,机器甭管是百分之多少,只能告诉我哪些不合规——这是一张色情图片、这是一张违规的东西,我们把它删掉。删掉是可以的,但是它过的那些内容没有人敢说直接发吧,肯定还要送人审。所以这里我们遇到一个问题,什么情况下或者什么场景下,我们把内容审核系统建起来是合适的?因为建设也需要考虑成本问题。即我们系统建立起来以后,把有问题的处理掉,帮助央视网解决人工审核15%的工作量,我们要算15%和我的投资相比,差多少。我们内部有时候在开玩笑,不行我们就灌点水,把它变成50%,建设就值了。当然这是玩笑,内容审核系统建设是否值得,其实是要看企业实际的情况。因为央视网可能PGC的比较多,UGC的相对少一点,所以对于我们当时来说价值不是那么大。

另外一个就是非常重要的安全发布,安全发布是什么?举个比较惨烈的例子,在2016欧洲杯期间,几乎大半个时间段我们都在跟香港那批黑客对抗,他们找到了很多路径,提前4个月潜伏到央视网的系统内(2016年那时整个监测体系还不完善)。因此出现了,在欧洲杯接近20天的时间,把他们在走的路封了,又有一条新的路来。黑客非常嚣张,要知道整个央视网的发布系统是从内部发布到审核再到传输,传输是非常复杂的系统,到公网的CDN,他是在传输的环节直接切进来。刚开始一下写了几万个文件进来,后来我们一看很好解决,1分钟超过500个文件,我们就告警。他们也学奸了,开始慢速的发……整个对抗了很久。

后来我们上了内容审核系统后,除了辅助人工审核之外,也发现一个很有意思的事:黑客如果知道要过你的审核系统,会用各种各样的方法去规避你检测策略,黑词前面加各种符号等,规避审核策略。但是他通过你的传输系统直接切过来之后,就会肆无忌惮。拿两个关键词,几乎可以把所有文件全跑出来,因为他觉得已经逃过审核了。


所以我们在前期的时候,是把内容审核系统接到安全发布系统里做报警,当内容审核系统成熟、稳定了后,我们把它串到整个安全发布的系统里。现在我们有部分重要内容是这个系统审不过,前端就发不出去,只有我们在后台做一个操作之后才能发,这是我们在对抗的时候做安全发布的一些思路。


内容安全里什么事比较简单呢?就是刚才有老师也提到的色情。为什么简单?因为它规则比较单一。它再难训练,我们积累时间肯定是可以的。什么最难呢?我认为是涉政。涉政难就难在规则不单一,经常变,而且这里边隐喻非常多,所以我们在想怎么积累。因此我们内部的编播会,然后上级下发的一些文件在比较重要播出之前,我们都会收到一些文件,以及对报道的要求,包括自身编辑定期或不定期的访谈、咨询,通过这些途径把它积累下来。

最后说一下对未来的探索。其实刚才提到了涉政难在隐喻太多。我们现在的办法是建设专家系统,把常见的或者已知的隐喻做一个图谱出来,几个词连起来后,或者上下文怎么关联后,通过图谱就能关联出一个规则。这件事我们未来想做,但是现在只是围绕着做一些实验性的工作,这里的原因有两点:

第一个,人不是特别好招(对央视网来说),做这件事不太好招人,毕竟国企;

第二个,刚才说了这是一套专家系统,专家系统最大的问题就是我们怎么去不断地迭代这些策略,这是非常难的。

所以最后我们的想法是,存量的——说白了就是已知的,我们长期不断积累;另外一个就是增量,出来一个新的事件,本来这句话没有问题,现在这句话变得有问题了,我们的反应速度是什么样的。

总的来说,知识图谱是我们后边想继续完善的,但是如果大家也想做这件事的话,要小心一点,千万不要想着穷举,这种内容是不可能穷举的,把最紧急、最危急的东西放在里边就可以了

这就是我今天分享的内容,谢谢大家!

相关阅读:

构建全链路内容风控体系 解决内容安全难题

网易易盾升级内容安全体系 发布智能审核管理系统