「译文」YouTube鉴黄实践启示:技术升级不能停止

作为一家全球性的大型视频网站,YouTube是垃圾信息攻击者青睐的对象。面对众多别有用心的色情视频和垃圾评论,YouTube/Google使出浑身解数,来保障网站的正常运营。

色情信息侵袭YouTube,获利目标明确

凭借积累的视频库、Google的用户量及促成内容多样化的推荐算法,YouTube获得大量用户的喜爱。2017年2月底的媒体报道数据显示,全球用户每天在YouTube上观看的视频时长已超过10亿小时。


运营十多年,YouTube依据法律法规以及用户体验需要,对平台不欢迎的信息制定了完整的规则,以及相关的举报和审核制度,裸露和色情内容、暴力或露骨内容、垃圾内容、欺骗行为和诈骗等内容是不受欢迎信息的重要组成部分。

规则的完善,恰恰证明YouTube被垃圾信息严重侵扰。根据网易易盾团队的经验,互联网产品每天都面临恶意广告、色情暴力等垃圾信息的威胁,受欢迎的产品尤甚,例如网易跟贴、网易云音乐、Facebook等,拥有如此庞大流量的YouTube自然不能例外。

色情视频垃圾评论是YouTube上常见的两种垃圾信息,二者的获利目的非常明确。攻击者上传色情视频到YouTube,通常会诱骗用户进入危险的外部链接,并从中获益。例如,用户点击该链接跳转出YouTube后,会被要求通过短信确认年龄,然而短信实际上是向用户收取费用。


评论同样存在类似问题。订阅数量超3000万的YouTube红人、瑞典用户PewDiePie就关闭了评论,因为他的视频评论充斥着大量的病毒网站、恶意广告链接(Links to virus sites, advertisers, self-advertisers, spam, copy and paste pics of dogs),对视频内容本身的评论反而被垃圾信息淹没,然而后者才是他所期待的。 


YouTube反垃圾三板斧 

YouTube与色情垃圾信息过招,主要祭出三板斧:举报、审核与技术(过滤系统)

举报很好理解,YouTube依靠社区成员举报他们认为不当的内容,其员工会全天候检查受到举报的视频,看它们是否违反了社区准则,并对违规内容做相应的处理。当然,YouTube审核团队也会对用户举报之外的内容进行检查。

合适的工具是打击垃圾信息的好帮手,技术手段是当前互联网公司反垃圾的必备手段,背靠Google这棵大树,YouTube在技术方面的出招也是有声有色。YouTube这一招包含了三种主要变化:视频识别、评论识别和安全浏览模式。

YouTube利用一个过滤系统对色情视频进行过滤。该系统的运行原理、策略和算法设计目前尚未公开,但Google曾于2013年公布其清理网络儿童色情信息方面的努力。自2008年开始,Google就采用哈希法标记已知的儿童性虐待(child sexual abuse)图片,赋予每一张图片一个独特的数字“指纹”,机器能根据“指纹”自动识别出同样的图片。类似地,Google研发了一个Video ID系统,给每一个侵权被删的视频分配一个独特的哈希值,阻止它们被二次上传,该系统现已升级为Content ID,让版权所有者能标识和管理自己的内容。推测这项技术也用在色情视频过滤方面,是合理的。

而根据YouTube推荐算法的研究资料(Frederator Networks技术专家研究发现,个性化的节目/频道是YouTube上占统治地位的内容类型,YouTube利用各种算法支撑各个频道深耕不同的垂直内容,然后匹配给最适合的用户),以及Google如何将人工智能技术用于反垃圾邮件(Gmail一直在使用机器学习过滤垃圾邮件,用户点击“举报垃圾邮件”或“不是垃圾邮件”,也同时是在训练Gmail辨识垃圾邮件的能力),有理由推断Google的各种算法,包括在深度学习、自然语言处理和图像/视频识别领域取得的最新进展,也会被应用到YouTube反垃圾系统中。

为了遏制垃圾评论,YouTube也不断升级评论系统,采用的手段,包括屏蔽某些关键词、更新排序算法(将更受欢迎的评论移到顶部)、恶意链接和虚假账号审核工具升级、改变评论长度等。 

此外,在前端,YouTube也于2014年9月增加了受限模式(Restricted Mode)来过滤色情暴力内容,用户可以在每一个页面底部选择开启或者关闭这一选项。依据用户举报以及未披露的识别规则,YouTube认为开启这一模式可以滤除大部分不当内容。

YouTube对垃圾信息的处理  

YouTube反垃圾是出于保护用户的利益,其社区准则设定的初衷是“让每个人都能在YouTube感受到安全和乐趣”,“每个新社区功能都赋予了用户一定程度的信任”,YouTube呼吁用户尊重这种信任,同时也注意不让反垃圾机制伤害视频上传者的感受。

首先,举报系统不会自动移除遭到举报的内容。如果审核人员确认被举报的视频确实违反了社区准则,YouTube才会将其删除。其次,YouTube采用了分级制度。YouTube公告称,有时某个视频虽然并未违反社区准则,但是该视频可能并不适合所有人观看,那么这些视频会被施加观看年龄限制。第三,YouTube提供的“受限模式”默认处于关闭状态


然而,YouTube对违规用户的处罚极为严厉:违反社区准则的帐户将受到处罚,若情节严重或屡次违规,则会被终止。如果帐户遭到终止,帐户所有者将不得创建任何新帐户。鉴于色情视频、垃圾评论通常是由一些潜伏帐户在几天或者一天集中发布,这个处罚机制非常有效。

写在最后

YouTube的自动色情过滤系统,曾被一些网民以爱尔兰语标题绕过,并且色情视频在YouTube上存活了数月之久才被举报和删除;而YouTube利用新的规则升级评论系统,也曾经引发过新的问题 - 攻击者很快地发现并利用新规则存在的漏洞,更换垃圾信息发布方式,使之成功绕过系统。这表明,YouTube与攻击者的博弈是一个长期的过程,反垃圾技术需要不断升级,而用户举报和人工审核的方式是不可或缺的补充手段。目前,能够在运行期间自行生成新规则的机器学习算法,可以减少系统升级的工作量。

网易易盾提供高效的广告过滤、智能鉴黄、敏感词过滤、违禁检测过滤服务,21年专业审核经验打造高效能的内容审核管理平台,助力企业实现内容统一管控、全程溯源、实时审查,共建清朗网络空间,点击免费试用

文章信息

原标题丨Porn Spam on YouTube: The Struggle Against Internet Scams

原作者丨ABIGAIL WANG

编译丨网易云

相关阅读:

人工智能在内容安全的应用实践 

「译文」谷歌:用人工智能和集体智慧消灭“毒”评论

深度学习图像算法在内容安全领域的应用