近日,2016初橙·北京互联网创业创新大会举行,汇聚了上百位创业者,共享互联网发展经验。网易易盾总经理周森应邀出席,同创业者分享了网易19年反垃圾的经验与成果,受到与会者的追捧。
网易易盾是网易旗下安全产品,提供广告过滤、智能鉴黄、暴恐识别、谣言排查等反垃圾服务。易盾拥有19年反垃圾技术经验和海量特征库大数据,在文本过滤、图片识别、视频检测等方面有丰富的实践经验,为互联网企业、尤其缺乏技术经验的创业公司提供了一条通过第三方云服务解决垃圾问题的道路。
下面为周森的分享内容:
任何一个用户可以上传原创内容(比如发表评论、图片或者文章等)的网站、App、直播平台等载体,就是UGC产品。因为内容是网民自主上传,所以存在着各种各样的运营风险。
UGC 运营巨大的风险:违法犯规、损害用户体验。规避UGC的运营风险就是做反垃圾工作的目的。运营风险有两种,第一种是政策法规,第二是用户体验。政策法规一 般是国家在法律层面禁止的,比如诈骗、谣言敏感信息、淫秽色情等这些在法律条文上是明文禁止的。而在用户体验层面主要是广告推广,如果推广信息不加以控 制,广告泛滥,造成的结果就是浏览屏的一半都将被广告信息占据。在这种情况下,用户体验必将大打折扣。
不同产品规模的风险规避有不同的法则。
小型产品:公司处于发展初期,团队规模较少,垃圾信息相对少,风险较低。在这个阶段一般由产品的运营人员来把控。虽然让运营人员做这些事情有点浪费,但是鉴于初创企业资源有限、人员有限,只能这么做。
中 型产品:公司处于快速发展期,产品规模不断扩大,用户数迅速上升,垃圾信息也急剧上升。在这个阶段,运营的风险也会越来越高。互联网时代中,不少人会以特 立独行来博取眼球,以夸张、违规的信息来吸引关注。自然规律下,人越多,违规信息越多,风险加大。这时候对产品团队来讲就应该考虑是否投入转型的技术团 队,或者另加审核团队。如果加审核团队,那又是否支持7×24小时的审核?众所周知,凌晨两三点产品运营经理基本都已经在休息,因而这个时间段垃圾信息被屏蔽的概率最小,成为垃圾信息发布的高峰期。
大型产品:已处于成熟期,有稳定的用户规模、需要配备专门的审核团队,7×24小时。而随着产品发展、新型垃圾不断出现,技术研发也要不断的跟进。
每一个产品都有一个过程,从最早的博客到开心网等社交产品社交网站,再到微博、微信的兴起,每一个社交类的产品都有一个周期。在它走下坡路的过程,尤其是衰落期,会产生大量的、种类繁多的垃圾信息,对于企业来讲,需要加强处理,防止产品的界面被垃圾淹没,用户体验和口碑一落千丈。要不要投防垃圾技术团队和审核团队,也值得考量。
技 术背景的CEO和非技术背景的CEO在解决UGC产品运营风险问题上,会有不同的观点。技术负责人和审核负责人,他们两者就会有不同的分工和不同的处理方 式。曾经一位朋友说过,偏法规性的垃圾信息过滤不是技术问题,而是艺术一个界限和尺度问题。当然广告推广类的垃圾过滤,这就是技术问题,因为广告推广是大 范围覆盖,比较容易用技术解决。接下来,我就来介绍下几种垃圾过滤技术。
文本过滤技术,分三个阶段:第一是关键词技术,这个技术固化比较严重,也可以说审核成本比较高;第二是规则引擎,就是设立很多的规则,这个技术相对比关键词技术要好,但是更新比较麻烦;第三是通过语义分析。
图 像识别技术,最早是用哈希匹配,准确率5%,因为要收集样本库,成本很高。第二阶段是根据肤色识别,通过皮肤占整张图片的概率加以说明。如果皮肤占整张图 片的概率很高,说明裸露的程度很高,其准确率在60%左右。第三是深度学习,通过历史的图片进行学习判断,准确率高达99.8%。因其超高的准确率,该技 术也成为现在运用的主流技术。
网易易盾采用的即是深度学习算法,将人工智能技术引入反垃圾服务中,同时利用海量大数据做用户的行为分析,进行用户画像,甚至可以评估出用户是一个垃圾用户还是一个正常用户。人工智能技术的应用极大地提高了对垃圾词汇、色情图片、广告图片以及一些违禁品图片的识别率,在识别速度上,网易易盾也是领先于国内同类产品的。
专 业审核团队的搭建,要支持7×24小时审核,这样才能做到最好节奏、最高效率的审核信息;保持政治敏锐度,防患未然;细化审核标准,把审核团队当成流水线 上的各项工作,每个工种的每一步操作都要确保标准化;另外,还要定期进行培训,以便保持业务高水准,特别是针对新人上岗,一定要经过高质量的培训。
最后在信息过滤,或者是规避运营风险上我的总结是:
第一,在技术层面和审核层面做到精细化、有机有效的审核;
第二,了解技术能力的极限。能技术处理则技术处理,技术无法实现的,相关负责人要有意识去必备其他解决方法,而不是一味地找技术人员解决问题;
第三,利用审核的优点,同时,注意成本控制。