近期,根据国家知识产权局颁发“第23届中国专利奖”授奖决定,网易智企旗下网易易盾的“一种垃圾图片识别方法和装置”通过发明专利审查程序,获得中国专利优秀奖。受到中国网络空间安全协会的推荐,该项技术聚焦不良有害图片的识别,对过程中的“图像特征检索”环节进行创新。
据了解,中国专利奖由国家知识产权局和世界知识产权组织(WIPO)共同主办,专门对我国授予专利权的发明创造给予奖励的政府奖项,设有金奖、银奖和优秀奖,是我国对授予专利权的发明创造给予的最高级别政府部门奖励。
易盾的该优秀奖专利提出了一种新颖的图片分析系统,尝试了不同的样本采样、图片分割、特征组合对比等过程,对不良有害图片变化的适应性强,解决了现有技术中存在的对图片变动适应性较差、计算量较大、识别准确率较低等问题。点击免费试用图片检测
在全新技术下,即便不良有害图片制造者对待识别的图片进行了背景颜色、文字大小等变化,只要其中的多个图片特征组合中有一个特征组合与不良有害图片特征库中的不良有害图片特征组合匹配,仍然会被识别出来,提高了识别的效果和准确率。
更重要的是,风控对抗如逆水行舟,不进则退。该专利技术在多年的实际应用中也获得了长足发展,衍生出一套任务相关的多级图像特征检索系统,即在“全局图片特征模型”的基础上,融合了识别场景、特征提取流程优化、特征训练、索引结构等技术助力。
当前,该专利及其衍生方案已经凭借其巨大的技术优势及通用性实施到网易的多款涉及到不良有害图片识别的核心产品中去,其中包括但不限于网易易盾、网易邮箱、网易新闻、LOFTER 轻博客等。
01 一系列更理想的图片识别方法
多样化的互联网业务,如博客、微博、贴吧、社交网站(SNS)等,为人们传播、交流各种信息提供了广阔的平台。随之而来的不良有害信息泛滥问题也愈发地突出,严重威胁到用户的隐私、财产甚至人身安全。不良有害信息传播快速,且形式多样,内容多以中奖、诈骗、广告、色情信息为主,其存在严重影响了用户体验以及业务安全。
部分不良有害信息从传统的文本信息转换为图片信息,给服务运营商识别不良有害信息带来了一定的难度,如何快速、准确地识别出不良有害图片已经成为一个重要的技术问题。
当前,市面上也不乏一些不良有害图片的识别方法,如消息摘要算法(Message Digest Algorithm)、几何矩、复数矩、颜色直方图等,但仍存在的部分缺陷令效果有待改善。
现有技术 1:对图片进行图像处理,通过复杂的处理算法将图片转化为文本进行标注,进而基于转化后的文本进行检索、分词、合并等文本类处理算法,实现对图像进行搜索的目的。
现有技术 2:通过对与图片相结合的相关文字的识别,辅助对图片进行识别。
现有技术 3:利用获取的图片特征到已经训练完成的模型里进行分类操作,以判断该图片是否为不良有害图片。
现有技术 4:使用连续两个图片特征组合而成的图片特征组合进行比对,并分别计算待识别图片与不良有害图片集合中各不良有害图片的相似度值,实现对不良有害图片的识别。
与市场上的现有技术相比,该专利以其独创性的设计与突出的技术性能,解决了图片比对中的适用性难题,对不良有害图片识别具有优秀的适用性。
此外,在几十年的风控时间过程中,易盾的“图片识别”技术克服了众多的实际挑战,形成了一系列更理想的图片识别方法。
从识别场景来看,海量有害数据均来自于互联网,对其有害特征的识别受业务场景与审核任务的影响大。对此,易盾针对如 logo、服饰等具体任务,定制了任务相关特征模型,与多场景特征融合,有效提升特征检索的效果。
从特征提取流程来看,易盾设计了“全局特征粗排”与“局部特征精排”相结合的算法思路,通过全局、局部特征以及粗排精排逻辑的设计,更好结合全局场景信息和局部响应信息。
从特征训练来看,在自监督特征训练的基础之上,易盾设计了基于领域泛化的自监督特征提取方法,从特征训练的角度提升特征的泛化能力。
从索引结构来看,易盾设计了融合“图索引”与“倒排量化索引”的索引结构,从而提升检索系统的并发能力,提供高效快速的图像检索服务。图像检索系统能够针对海量的图片数据,提供快速、高效、准确的图像检索服务。
02 筑就更安全的互联网环境
截止目前,该专利技术在商业上也不乏应用与实践,在网易内外部的众多产品中落地,守护着数以十亿计的广大用户群,共同保障清朗网络空间,这也进一步说明了其对不良有害图片的识别具有泛用性,对行业的发展都起到了积极的推动作用。
以网易邮箱的内容安全系统为例,在使用期间,日均对邮箱中千万级封含有图片的邮件进行检测,日识别不良有害图片量在百万级,从而杜绝了涉黄、涉暴、诈骗、钓鱼等各类型不良有害信息的泛滥和散播,有效净化了邮箱产品的使用环境,为广大邮箱用户安全使用电子邮件产品提供了有力的保障。
降本增效
不良有害图片信息的识别具有极高的技术门槛,一般的互联网内容企业已难以应对这种复杂的不良有害信息,纳入大量的人力进行判断不仅效率低,而且成本高,因而如何快速、准确地识别出不良有害图片已经成为一项严重制约互联网行业发展的共性技术难题。
在智慧化图片识别任务中,任何对于相似图片识别比对有需求的场景,特别是对于图片存在一定修改变化可能的场景,均可采用本专利的技术方案,助力企业有效解决不良有害图片检测问题,有效降低信息识别带来了巨大成本。
有序合规
“数字内容风控”是互联网平台型公司不可回避的重要工作之一,涉及到图文、音乐、视频、公众号、游戏、广告、动漫等行业,以色情、暴力、广告、低质量内容为主要方向。
该技术专利对图片中的违规内容进行初步筛选,快速识别成千上万张图片,初步筛选出疑似含有违法内容的信息,然后再由人工进行最终审核。利用“技术+人工”的方式过滤并删除含有违规信息的图文及音视频,保证平台内容合法合规和绿色健康,已经成为不同行业乃至世界各地的共识,旨在打造更健康、更有序、更文明的互联网环境。 点击免费试用图片检测