中文站

网易易盾朱浩齐:联手构建AIGC时代内容安全堡垒,是易盾与行业生态的共同使命

01 引入

随着 AIGC 出现,让机器想象、直觉出现了可能。正如在《机器的脉动》的这段充满「赛博朋克式浪漫」的对话。
——If you are a machine,what is your function?(如果你是机器,你的功能是什么?)
——To know you(了解你)


然而,在 AI 应用的设计中,不仅需要“ to know ”人类的思维模式、语言结构、情感表达和创意逻辑,更应该“ to know ”道德伦理、规则法律,从而确保技术的发展能够符合人类社会的价值观和伦理标准。

02 观察与洞见


在第六届GIEC互联网泛娱乐行业科技创新峰会上,一场关于 AIGC 数字内容安全的演讲引起了与会者的广泛关注。网易易盾CEO朱浩齐,凭借其在数字内容安全领域的深厚阅历和洞见,为听众揭开了 AIGC 时代下内容安全的神秘面纱。

AIGC技术的崛起

在这场演讲中,朱浩齐回顾了网易易盾在数字内容安全的历程与沉淀,展望了在 AIGC 技术浪潮中,所面临的新挑战与机遇。他指出,随着 AIGC 技术的飞速发展,内容生产方式已从传统的人力创作跨越至算力驱动的自动化生产,这一变革不仅极大地提升了内容的生产效率,如刚发布的新版 SUNO, AIGC 技术在音乐创作领域展现的惊人创造力。


网易易盾CEO 朱浩齐

伦理与价值观

但 AIGC 技术的崛起,也为内容安全带来了前所未有的挑战。“如果没有和人类相似的基本伦理和道德判断能力,那么 AI 只是一个能执行命令、能力强大的工具而已”,朱浩齐同时也提醒:AIGC 技术的黑盒特性导致生成内容不可控,刺激了多样化有害信息的产生;AIGC模型训练所需要的大量数据,威胁了个人隐私和数据安全。他还强调, AI 系统的价值观问题亟需关注,因为不同的 AI 可能会展现出截然不同的价值观导向。


网易易盾的治理策略

在探索 AIGC 数字内容安全的治理策略时,朱浩齐提出了网易易盾的创新方案——“围栏防护策略”。这一策略专门针对大型 AIGC 模型设计,通过在模型的输入和输出阶段引入先进的安全处理机制,显著提升了整体系统的安全性。这种方法不仅能够有效地防范潜在的风险,还能够确保内容的合规性和健康性,为数字内容的创作和传播提供了坚实的保障。

此外,朱浩齐还提及了网易易盾在安全领域的进一步规划,即推出一款安全领域的大模型。这一模型不仅能够识别和处理常规的安全问题,还能针对更为敏感和复杂的问题提供精准的解答,用魔法打败魔法。通过这种方式,网易易盾将进一步提升大模型应用的安全性,确保 AIGC 技术在创造丰富数字内容的同时,也能够维护网络空间的安全和秩序。点击了解易盾AIGC内容风控服务


未来展望与行业呼吁

展望未来,朱浩齐预测,硬件性能的显著提升和新算法、软件的升级将推动智能技术应用广泛普及,从而使得对技术的安全要求大大提升。然而,这种技术的快速发展也必将带来更高的安全挑战,传统的单一维度安全检测和依赖单个公司提供的服务将难以满足日益增长的安全需求。

面对这一挑战,朱浩齐强调了全行业共同参与的重要性。他呼吁业界携手合作,共同构建一个更加全面和强大的安全防护体系。通过集体智慧和资源共享,确保 AI 技术的安全发展,防范潜在的风险,从而让每个人都能在享受 AI 技术带来的便捷生活的同时,也能拥有一个安全可靠的网络环境。


03 演讲实录

以下为朱浩齐演讲内容:

近一年多来,以 OpenAl 为代表的大模型技术,给各行各业都注入了强力的兴奋剂。

易盾作为数字内容安全服务的提供商也从新增客户角度明显感受到了大家的热情。

生成式技术让我们的信息生产能力从人力限制升级到了算力限制,从 UGC 时代进入 AIGC 时代了。

今年时不时就有火爆的技术和应用诞生,并且成熟度非常高,各种文生图,文生视频,文生音频等产品效果十分惊艳。

这些火爆的应用,都能对企业信息生产和消费使用带来巨大的便利和机遇。但对于易盾而言,它们也给内容审核工作带来了巨大的挑战。

挑战一:生成算法不可控性

首要风险是 AI 生成算法的不可控性,除了生成一些常规的有害内容之外, AI 还有能力生成虚构信息,比如男性怀孕图等,也可能会泄露一些机密信息,比如软件序列号,芯片代码等,也可能会输出一些违禁的信息,比如毒品制作方法等。

对 AI 来说,如果没有和人类相似的基本伦理和道德判断能力,那么它只是一个可以执行任务的强大工具而已。

挑战二:模型价值观差异大

另一个风险是 AI 对回答内容的价值观差异很大,这是由于技术本身限制造成的,因为不同的大模型采取了不同的训练数据。如果把大模型训练过程理解为一个人智力发育的过程,那么这个人在成长过程中接触到的信息就会很大程度上影响这个人的价值观。比如宗教信仰、生活习俗。就这一点来说,我们几乎很难分辨对错。就像我们老一辈的人会觉得结婚生子很正常,但是现在很多年轻人都习惯甚至享受单身生活了。这些差异都还算好的,我们担心未来机器会给更多的人输入种族歧视、地域歧视、性别歧视等不正确的价值观。

挑战三:侵权和虚假信息

AIGC 技术发展还带来了侵权和生成虚假信息等问题。前段时间很火的 AI 孙燕姿,用孙燕姿的歌声去唱周杰伦等其他歌手的歌曲。据说 AI 孙燕姿已经翻唱了1000多首歌,连孙燕姿本人都直呼“打不过”。更有甚者,前不久美国著名歌手泰勒·斯威夫特的 AI 伪造不雅照片在网上疯狂传播。以前我们说:造谣全凭一张嘴,现在造谣可以“有图有真相”,甚至“有音频有视频”了。

基于以上的种种风险,国内主要监管的重点也很明确。历史虚无主义,歧视性内容以及侵权、伪造诈骗等都是管理重点。

大模型服务提供者怎么应对呢?

一种常见的做法就是拒答,比如命中关键词列表中的词汇就拒绝回答。遗憾的是,有时候拒答反而是不好的,我们希望模型能正确地解释和说明,而不是简单地拒绝回答。网信办发布的《网络信息内容生态治理规定》就能体会到差别,从以往的罗列禁止发布的内容变成增加了提倡制作、复制、发布正向价值观的内容了。

不仅是中国,全球范围内各个国家也都意识到了信息茧房的挑战。有专家预言未来的战场会先发生在网络上,所以各国都十分重视 AI 技术带来的新安全问题。OpenAl也一直深陷各种侵权官司里面。

我们可以看到为了应对这些挑战,国内外各大主流意识形态都对 AI 的安全治理发展提出了密集的倡议和要求。2023年之前欧盟和美国还是以提倡创新为主的,23年之后也开始转向重视安全合规。一周前,联合国大会全票通过了首个全球性的人工智能(AI) 的决议草案。该决议由美国发起,中国等122个共同提案国支持。决议要求 Al “必须以人为本、可靠、可解释、符合道德、具有包容性,充分尊重、促进和保护人权和国际法,保护隐私”。

AIGC内容安全治理方案

国内的大模型算法备案和上线备案要求已经比较细致了,相关要求也参考了传统的信息安全要求。首先,安全问题需要公司一把手重视,这样才能获得足够的资源支持。不然等到出事的时候,法人可能还没意识到。当然大部分公司对安全问题还是足够重视的,有专门的安全负责人和相应的资源投入,也有充分的安全制度。此外,还要加强基础能力技术手段去监控和管理整个业务的安全情况。

易盾也实践了很多大模型相关的全治理的体系,比如最常见的围栏防护策略,在用户输入内容的时候首先进行基本意图的判别和检索,对于白名单的回答,可以直接进行匹配。对于不在白名单的内容首先要进行一定的判定,如果是不恰当的应该做一定的安全处置,严重者可以拒答。同时在内容生成之后,还需要有识别能力,停止输出或者修改回答内容。

易盾对 AIGC 的内容安全治理已经有了整套的方案和实践经验,涵盖了语料、模型训练、备案、上线、生成等全阶段的安全风险防控点。

挑战与机遇并存

但是我认为未来我们面临的挑战还是巨大的,我们简单展望一下未来 AI 技术发展情况。英伟达刚发布的B200系列GPU芯片在成本下降的同时,做到了算力的大幅飞跃。我们有理由相信:未来硬件会变得更加强大,同时依赖于新的硬件, AI 从业者将会不断地推出新的模型、新的算法和框架,也会推出更多的领域模型,进而更快速地让 AI 的能力覆盖到日常生活的方方面面,让科幻走进现实。以前在科幻片中看到的各种智能机器人、智能服务都会变成可能,比如星球大战里面的R2-D2或者星际穿越里面的Tars等等。

同时,技术进步和应用普及也会带来数据量的爆炸,越来越多更高质量更逼真的信息会被制作出来,最终人也无法区分这些内容的真伪,到时候我们会面临更加严峻的挑战,易盾计划充分拥抱 AI 技术,利用 AI 的能力对数据做更多全方位的理解和检测,用魔法打败魔法。

行业协同应对安全挑战

除此之外,我认为未来需要各个行业的厂商团结起来,共同应对这些安全挑战。以易盾为例,除了不断提升自身的安全识别能力之外,也需要考虑做更多跨领域的合作,比如和网络安全厂商合作,从网络流量特征识别开始,对内容安全的相关数据进行全链路监测,从源头上对有害信息进行拦截。和大模型厂商约定,确保所有 AI 在生成数据的时候,能带上相应的 AI 指纹,这样对用户和平台来说就能更好地识别数据来源。和网络关键基础设施提供商合作,共享黑灰产特征,从硬件上对入网的用户和行为进行识别。和各种政府部门和行业结构合作,共同推出符合 AI 技术进步和安全合规的各种规范和要求,共建安全合规的语料库和检测标准等。总之,安全防御体系的建设需要各行各业的参与,也只有这样才能应对未来的风险挑战。

最后,希望我们能共同努力,让科技变得更加安全,让我们可以放心地享受科技带来的社会进步和幸福生活。