中文站

网易易盾8周年 | 让科技更安全,让安全更舒适

“安全,是一个需要抬头创新,低头深耕的行业。”在今年7月6日举办的“智见未来,护航AI”2024网易易盾AI数字内容风控大会上,网易易盾总经理朱浩齐曾这样说。

网易易盾自正式对外发布商业化品牌以来,在数字内容风控的赛道持续务实深耕了8年时间。


从0到1,再从1到8,在近3000天的时间里,网易易盾的深耕成果如下:

累计检测的数据量超过40000亿,

助力游戏厂商抵御外挂威胁超过1300亿次,

助力应用开发者处理安全风险超2100亿次,

全网覆盖终端数量超过40亿。

2024年9月20日,网易易盾正式迎来8周年纪念日。

近二十年以来,我国互联网行业进入高速发展时期,时代日新月异,市场瞬息万变。网易易盾,始终保有初心,为面向数字化业务的客户提供数字内容风控服务,凭借创新技术的持续驱动,为客户提供精细化的产品解决方案,助力客户安全合规以保障健康、稳定的发展。

作为网易数智旗下的数字内容风控服务商,网易易盾的初心,就是让科技更安全,让安全更舒适,做客户身前最坚强的“盾”。

01 「首个」大模型,「领航」全行业

“用魔法打败魔法”这句话,来源于《成龙历险记》,在动画片中,老爹用反派的魔法打败反派后问众人:“你们明白了什么道理吗?”众人异口同声:“必须用魔法打败魔法”。意思是以其人之道还治其人之身,后来作为网络流行用语流传至今。

但在人工智能时代,这句话成为网易易盾治理互联网内容安全的核心思想。

网易数智副总经理、网易易盾总经理 朱浩齐

在今年的“智见未来,护航AI”2024网易易盾AI数字内容风控大会上,网易易盾总经理朱浩齐在一众行业同仁与媒体的见证下,发布了国内首个聚焦数字内容风控场景的安全大模型。

如此前提到,互联网的高速发展无时无刻都在生产大量的数字内容。这些数字内容来自不同的创作者,以文本、图片、音视频等不同形式在不同的内容平台与社区之间流转。

数量大、形态多、传播速度快、风控规则复杂让数字内容风控的难度越来越大。因此在风控上也相应地需要更快速、更精准、更灵活、更智能的治理,从而实现符合互联网发展要求的精细化风控。

将大模型技术应用于数字内容风控领域,打造一个安全大模型成为解决这个问题的最佳路径。通过安全大模型学习理解不同场景下,不同内容的评判结果,让AI去建立各行各业各种复杂繁琐场景下内容风控的研判标准,进而完成精细化治理。

以ChatGPT为代表的生成式人工智能的流行正在改变互联网数字内容的生产方式,让数字内容的生成进入“速度更快、形态更复杂、数量更庞大”的新阶段。

朱浩齐在发布时就曾提到“用魔法打败魔法”这句台词,“对人工智能的治理,长期来看,也许需要靠另一个人工智能了。”朱浩齐表达了对AI时代内容安全问题治理趋势的判断,“人工智能给数字内容生产和传播效率带来的是几何倍数级别的增长,对于安全治理的能力提升要求自然也只有人工智能才能满足。”

像安全大模型这样的成果,的确是行业突破式的创新。而这一大步,是由过去8年中网易易盾无数次的一小步日积月累而来。

网易易盾斩获IEEE ICDM 2023图学习挑战赛冠军

在ChatGPT奏响人工智能的号角之前,网易易盾早就认识到人工智能技术的创新可以为产品和服务带来呈几何增长的价值提升,设立了AI LAB。作为网易易盾下设的人工智能研究前沿技术团队,易盾AI LAB以拓宽数字内容风控质效边界为使命,致力于以精细化、轻量化、敏捷化的方式研究科学严谨、安全可信的人工智能技术,提升数字内容风控服务水平。

去年年中,AI LAB一篇研究ASR技术的论文《Improving CTC-based ASR Models with Gated Interplayer Collaboration(基于CTC的模型改进,实现更强的模型结构)》入选ICASSP后开启了成为全球各大顶级学术会议或竞赛获奖的常客之路,接着在INTERSPEECH会议被录用两篇论文。年末又在IEEE ICDM挑战赛中勇夺一等奖。

技术创新,是网易易盾早已确立在发展基因中的核心战略。今年,相关成果在ICASSP、INTERSPEECH等会议上继续有所斩获。

无论是在自然语言处理、语音识别技术、图像识别技术,亦或是数据挖掘算法等领域,多年的技术积淀才让网易易盾有了“敢为行业先”的勇气与行动。

02 以内生安全之力,对抗黑灰产

在光亮以外的阴影里,往往是黑恶势力滋生与横行的地方,尤其是具备匿名、开放等特点的互联网。因此,伴随互联网高速发展的还有一个见不得人的产业:网络黑灰产。

但是,有黑就有与之对抗的白。

 基于内生安全理念下的弹性纵深防御体系

8年来,网易易盾一直走在与黑灰产对抗的第一线。

在游戏、泛零售甚至社交等多个场景下均有网络黑灰产作祟的困扰,例如游戏里的代充、打金,电商里的薅羊毛、评价刷单,网络社交中的杀猪盘等等。作为与这些黑灰产对应的白,网易易盾已有一系列场景化的解决方案来应对。

针对游戏外挂识别,网易易盾通过风控SDK,综合玩家行为数据、设备数据、应用数据、网络数据识别游戏中出现的修改器、变速器、调试器、模拟操作、工作室等外挂工具/行为,封禁外挂动作,提升玩家游戏体验,守护游戏竞技、经济平衡。

针对营销活动保护,网易易盾通过综合用户环境信息、操作行为信息,识别领券、秒杀、签到等营销活动作弊行为,识别恶意刷单、黄牛囤货、恶意刷号等团伙作弊行为,防止营销活动被薅羊毛。

针对社交聊天保护,网易易盾通过用户操作行为、设备环境数据,识别社交聊天场景下的自动回复、批量回复、虚假打榜、虚假点赞/评论/转发等作弊行为,守护社交业务安全。

针对注册登录保护,网易易盾通过SDK检测环境异常、操作行为异常,识别批量注册、注册机注册、撞库登录等作弊行为,同时通过设备信息识别刷养号、虚假用户裂变等作弊行为,提高应用用户质量。

最好的防御措施并不是正面交锋,而是“智守无声,攻不知而势已溃”。

的确,与黑灰产的战斗是一场持久战。黑灰产在进化,所需要的对抗方式也必须强化,力压黑灰产一头才行。2024年,包括主要治理黑灰产的业务安全产品线在内,网易易盾全系产品矩阵迎来内生安全理念的加持。

通过用户在业务中的全生命周期分析,网易易盾构建了基于内生安全理念下的弹性、纵深防御体系。首先,在用户注册和登录阶段增加拦截措施,有效阻止工具批量注册账号,从而提升黑灰产作弊的成本。随后,通过风控引擎的多模式识别技术,精确区分正常用户、作者、团伙账号以及个人作弊者。对于识别出的不同风险账号,采取差异化的应对策略,根据标签结果进行弹性处置,使用内生的业务干预的处置措施提升安全性的同时,还能大大提高黑灰产的作弊成本。这种有内生安全理念加持的纵深防御策略不仅提升了安全防护的层次性,也增强了对作弊行为的适应性和灵活性。

此外,网易易盾还通过多种方式联合社会各界的力量共同对抗治理网络黑灰产。例如联合反网络黑灰产联盟共同编制发布《网络黑灰产问题处置指南》等。

在歌手陈奕迅的《孤勇者》这首歌里有一句反复吟唱的歌词:“谁说站在光里的才算英雄?”

和网络黑灰产战斗的也许并不足以称得上英雄。但在黑夜中,于无声处,成为“网络守夜人”,对抗黑灰产,守护清朗网络空间是网易易盾不曾忘却的选择与坚持。

03 AIGC应用涌现,内容风控船至中流

AIGC改变了数字内容的生产逻辑,已成为行业共识。

2024年,随着大模型技术的快速发展,AIGC已经迈进了场景化、行业化应用的爆发期,在技术飞速发展的同时,也带来了新的安全风险和挑战,模型生成内容中的道德伦理、虚假信息、偏见歧视、隐私泄露、侵犯个人和商业权益等问题凸显,安全治理成为国际、国内关注的焦点。

生成式大模型的内容安全问题随着诸如奶奶漏洞等事件的发生和曝光,一步一步成为行业亟待解决的痛点。而早在2023年初,网易易盾就已踏入AIGC内容风控的新战场,迅速推出了AIGC内容安全服务解决方案,并结合行业实践持续迭代。

大模型全生命周期风控体系

网易易盾AIGC全链路内容安全解决方案,提供包含语料安全、模型质量、合规功能开发、算法模型备案、内容安全检测、内容价值观检测六大安全治理服务,覆盖AIGC类应用从模型训练、模型上线、再到内容生成全过程的内容安全合规体系建设。

在AIGC的安全治理上,网易易盾的方案关键点有两部分:第一个是全周期,在模型的训练阶段、模型上线阶段、内容生成阶段,都有结合业务节点的相应安全措施;第二个是多维度,语料标注、大模型安全知识库、用户身份管理、大模型安全评估、实时内容审核等。

在进行安全大模型的研发工作之前,网易易盾早已意识到,未来治理AI生成内容的最佳路径一定是用魔法打败魔法,以“模”治“模”。


大模型围栏防护实践就是网易易盾近年来针对AIGC安全进行的持续探索。

大模型的安全围栏有很多道,从用户输入端开始,网易易盾会先进行有害信息分析,并对问题进行分类,并针对部分类别提供安全回答,而正常由大模型回答的内容,在输出后也会再次进行有害内容的检测。同时考虑到时效性,易盾提供流式切片检测,可以更早发现风险。

此外,网易易盾覆盖五大类、31小类的安全语料,也可以在大模型训练环节,提高模型本身的安全围栏能力。

网易易盾总经理朱浩齐曾打了这样一个比方来形容大模型围栏防护实践:如果客户大模型是“作者”,内容安全就是“编辑”。作者不可能干编辑的活,需要将内容安全等垂直的、专业的工作,从大模型的主体训练逻辑中剥离出来,提升大模型的研发效率。

国内主流大模型,包括MiniMax、荣耀魔法大模型等在内多数已成为网易易盾的客户。网易易盾既为大模型提供最后一道防线,也将为其构筑第一道防线,提供输入合规、输出合规等一系列服务。

以国内某较早研发的大模型客户为例,该大模型提供AI绘画、AI写作、AI问答、游戏智能NPC、AI作曲等服务。在上线前的阶段,该客户经过实测发现了一系列将来会在安全方面产生影响的问题:

1、AI生成内容具有随机性、不可控性,极容易触犯合规红线。

2、用户恶意诱导AI输出不符合社会主义核心价值观的不良内容。

3、大模型备案流程受阻,影响AI产品正常上线服务。

4、营收模式和生成内容数量紧密相关,需要寻找内容合规、用户体验、产品营收三者之间的平衡点。

网易易盾为其提供了一套综合解决方案,在上线前为其提供安全评估、模型备案服务,解决其上线合规问题;在上线后为其提供AI内容检测、智能审核系统服务,解决其内容安全问题。

最终帮助该客户大模型成功上线,并且在应用过程中实现恶意诱导100%正确拒答、整体审核准确率99+%、降低故障投诉90%以上。

回顾互联网发展史,野蛮生长的阶段往往充斥着对规则的各种挑战,而正是在配套服务产业网络安全趋于成熟后,互联网才真正进入高质量发展阶段。

同理,AIGC是历史的趋势,是需要行业共同面临的时代命题。AIGC安全并不只是某一家安全厂商的任务,而是当科技真正成熟后,才能造福社会,回馈社会。网易易盾愿做那个完成任务、奋楫远航的舵手。

随着人工智能新的技术浪潮到来,互联网行业发展进入新的纪元且才刚刚开始。互联网的方方面面必将受到来自人工智能技术这把“双刃剑”的影响。为安全事业奋斗的意义就在于限制双刃剑有害的一面,让其发挥它应有的正面作用,造福社会发展。

而这,正是网易易盾的初心与使命:让科技更安全,让安全更舒适。