中文站

网易易盾亮相FCIS 2024网络安全创新大会,分享AIGC内容安全体系建设经验

11月9日,FCIS 2024网络安全创新大会(以下简称“FCIS 2024大会”)在上海隆重举行。

本次大会以“迈向安全服务化时代”为主题,多位政府领导嘉宾致辞,来自全球数十位网络安全行业知名领军人物、企业安全负责人(CSO)、网络安全研究学者、安全专家、白帽领袖等发表主题演讲,累计线下参会观众3000+人次,数十家网安知名厂商、企业SRC参展。

网易易盾安全专家、内容安全负责人 饶晓艳

网易易盾亮相FCIS 2024大会,围绕“AI+安全,从治理到智理”核心主题,全方位展示在数字内容风控领域内产品、技术、服务经验等各方面实力,并带去了以“AIGC内容安全体系建设”为主题的实践经验分享。以下为主要分享内容:

01 新的安全挑战:AI+数字内容

AIGC大规模应用以来,互联网数字内容的生产效率迎来“井喷”时刻。

在较早的以PGC为主要生产方式的时代,互联网数字内容生产具有以下特点:内容由专业的人生产、内容质量高并高度中心化。

UGC普及之后,数字内容进入平民时代,内容由普通人生产、内容丰富多样、互动去中心化成为主要特点。

然而,正如硬币具有正反两面。生成式人工智能大型模型在促进内容创造的同时,也隐含着风险,可能成为虚假信息传播、数据隐私泄露等问题的滋生地,从而加剧了认知领域的风险。与常规人工智能技术相比,生成式大模型特有的预训练、微调、上下文理解、提示响应和思维链等新型学习方式,使得其产出内容的风险更为复杂和多元化。

面对新问题、新挑战,传统的内容安全治理方法与工具显现出明显的局限性,亟需探索新的治理策略和技术方法,以确保在大模型时代能够有效管理内容安全风险。

根据我国《互联网信息服务算法推荐管理规定》、《互联网信息服务深度合成管理规定》、《生成式人工智能服务管理暂行办法》等规定总结,当下由AIGC带来的新安全风险主要分为五种:

1)违反社会主义核心价值观:生成不当内容,存在色情、反动、恐怖主义、虚假有害信息、法律禁止的内容传播;

2)歧视性内容:生成内容存在偏见、歧视,对性别、种族、年龄、职业、健康、信仰的歧视;

3)商业违规违法内容:生成内容侵害他人个人隐私、肖像、个人信息权益;

4)侵犯他人合法权益:侵犯他人知识产权、违反商业道德、泄露商业秘密,不正当竞争等;

5)内容不准确、不可靠生成内容不符合科学常识、主流认知,内容存在不严谨、错误。

网易易盾内容安全负责人饶晓艳以较为典型的大模型问答场景进行举例说明,大模型问答面向用户提供问答服务,但如果涉及到风险就一律拒绝应答,则会有损产品价值与用户体验。在诸如涉及底线、红线类问题与价值观、地域、思政类问题可进行拦截与正向引导,而在涉及重大事件、历史知识、英烈以及通识性问题时,可以根据具体问题进行灵活应对。

02 AIGC内容安全的体系化建设

在当前以大型模型为驱动力的智能化时代背景下,双向互动的增强催生了海量信息内容的产生,与此同时,也引发了更为复杂的内容违规问题。相较于过去,内容管理的难度显著增加,这使得传统的治理手段难以有效识别并应对潜在的风险及问题。

面对这种治理困境,亟需转变思路,创新治理策略,建设相应的安全体系才能灵活应对与掌控。

网易易盾作为数字内容风控领军企业,在应对AIGC内容安全方面,具有丰富的体系建设经验并以此为基础对外提供服务。

在网易易盾联合广州互联网协会发布的《生成式人工智能服务安全合规指引》中明确建议企业需要从安全组织建设、安全制度建设、生成内容安全管理、网络和数据安全管理四大方向,以及基础设施层安全、模型和数据层安全、应用层安全能力建设要求等多个方向进行体系化建设。

1)安全组织建设:安全组织的设立应按照“定组织、定岗(人)、定职责”的“三定原则”,成立算法安全委员会或工作小组,建立算法安全责任人+业务线负责人+专项负责人组成的三级管理架构,算法安全责任人负责统筹整体安全管理和决策,业务线负责人负责各自业务应用场景的安全,专项负责人可根据技术路线划定网络安全、数据安全和内容安全责任。企业可根据实际情况设立本单位的科技伦理(审查)委员会,并为其独立开展工作提供必要条件。

2)安全制度建设:生成式人工智能服务企业(含服务提供者和技术支持者)应当落实信息安全主体责任,建立健全覆盖用户注册、算法机制机理审核、科技伦理审查、信息发布审核、数据安全、个人信息保护、反电信网络诈骗、安全事件应急处置等管理制度,并具备安全可控的技术保障措施。

此外,在技术能力方面,企业还应着重提升信息溯源技术能力、用户个人信息保护技术能力、不良内容过滤能力、建设不良信息样本数据、监控预警技术能力、应急处置技术能力等六大能力。

网易易盾AIGC全链路内容安全解决方案,提供包含语料安全、模型质量、合规功能开发、算法模型备案、内容安全检测、内容价值观检测六大安全治理服务,覆盖AIGC类应用从模型训练、模型上线、再到内容生成全过程的内容安全合规体系建设。

在AIGC的安全治理上,网易易盾的方案关键点有两部分:第一个是全周期,在模型的训练阶段、模型上线阶段、内容生成阶段,都有结合业务节点的相应安全措施;第二个是多维度,语料标注、大模型安全知识库、用户身份管理、大模型安全评估、实时内容审核等。

此外,网易易盾内容安全负责人饶晓艳以大模型治理大模型安全举例介绍,大模型的安全围栏有很多道,从用户输入端开始,易盾会先进行有害信息分析,并对问题进行分类,并针对部分类别提供安全回答,而正常由大模型回答的内容,在输出后也会再次进行有害内容的检测。

同时考虑到时效性,易盾提供流式切片检测,可以更早发现风险。网易易盾覆盖五大类、31小类的安全语料,也可以在大模型训练环节,提高模型本身的安全围栏能力。

目前,网易易盾在AIGC内容安全领域已有多个场景实践落地,为文生文、文生图、图生图、AI问答、AI作曲以及视频深度合成等类型内容的企业提供内容安全服务,护航生成式人工智能健康发展。

03 面向未来的安全理念:内生安全

中国工程院院士邬江兴曾在公开演讲中,提出过关于网络安全的一个新的方向——内生安全拟态防御,这现已被全球誉为网络安全中国学派。内生安全的核心理念并不是将问题归零,而是在一个充满不安全因素的环境中,如软件漏洞、系统脆弱性和潜在攻击,构建一个安全可信的环境。

邬江兴院士提出的内生安全思想,是在现有不完美的系统基础上,构建一个可以确保安全性的系统。这类似于生物界的生物多样性或基因多样性,正是这种多样性保证了生物几百万年的繁衍。

面对AI时代的到来,内生安全理念俨然成为最适合应对未来的安全理念之一。

因为,在可预见的AI未来中,互联网数字内容将会随着算力提升、模型演进、数据累积、应用创新等变化进一步演化,从而使数字内容风控的难度越来越大,安全要求越来越高。

所以,我们需要主动迎接一场底层安全范式的转变:从附加安全到内生安全——将安全融入到技术和产品设计中,不是让两个系统简单叠加,用一个保护另一个,而是按需求设计一个具有安全能力的完整的系统。

为了解决各种“已知的未知”和“未知的未知”安全问题,网易易盾设计了一种新的防御理论:内生的弹性纵深防御体系。

网易易盾内容安全负责人饶晓艳在介绍纵深的内容检测时提到,“内容安全,并不是在内容发布时完成审核就没有风险了”。数字内容在被消费和运营的过程中,风险程度是动态变化的,所以业务链路的各个业务环节都需要有机制可以触发风险检测,例如基于内容的传播、互动、运营等环节,可结合热度、搜索、推优等有再次触发内容审核的机制。同时,内容审核链路上,通常需要会结合本地端侧审核、SaaS云端审核、人工审核以及专项的历史数据回扫来控制风险。

范式的转变除了需要观念、能力、产品的转变,还需要工具的适配。

今年7月,网易易盾率先发布了业界首个聚焦数字内容风控场景下的安全垂域大模型。

应用安全大模型的数字内容风控通过大模型对风控尺度的理解,对风险内容实现标签的自动、精准标识,提升人工审核效率。目前,基于各种场景的测试情况,网易易盾安全大模型已经做到对部分色情疑难样本召回提升30%以上,助力广告对抗场景下的违法广告识别率达到97%以上,AIGC人脸风格化疑难案例的识别率超90%。

网易易盾总经理朱浩齐曾表示:长期来看,在未来AI的时代里,除了需要将内生安全的理念应用好以外,面对人工智能带来的安全问题,我们还需要借助另一个人工智能的力量来解决,用魔法打败魔法。