中文站

权威榜单 | 网易易盾入选中国信息通信研究院生成式 AI 技术和应用优秀案例

为进一步梳理和调研基于生成式人工智能技术、应用、产业发展现状,总结和推广优秀成果,推动产业高质量发展。2023 年 2 月,中国信息通信研究院(以下简称“中国信通院”)依托人工智能关键技术和应用评测工业和信息化部重点实验室 AI 工程化推进委员会生成式 AI 工作组,正式启动了生成式 AI 技术和应用案例征集工作。5 月 31 日下午,杭州通用人工智能论坛大模型技术应用分论坛现场,首轮生成式 AI 技术和应用优秀案例评选结果正式发布,网易智企旗下网易易盾成功入选优秀案例,并获中国信通院颁发证书。


一、内容风控仍是互联网安全重中之重

近年来,随着互联网的飞速发展,网络数据呈现井喷式增长。文本、图像、语音、视频等多元化的内容呈现形式已经成为人们日常工作和生活不可或缺的部分。内容形式多元化、内容创作门槛大幅降低为我们的生活带来了极大的便捷和效率,但由此引发的内容风控问题却日益凸显,数字内容安全已经成为互联网安全的重中之重。

二、传统内容风控面临新挑战

数字内容风控存在涉及范围与类型广、粒度细、对抗频繁、需求与标准多样等特点。以往数字内容风控往往采用“后置+定制+感知”的方式进行识别与防护。

○ 后置是指在有害类型或者数据出现后,再针对性的进行解决,时效性上往往是后置,没有太明确的风险提前感知与防范能力。

○ 定制是指有害信息类型与范围广泛,由于缺少可靠的通用能力,需要对不同的有害类型进行不断地模型定制训练,且每次定制都需从头构建专业领域能力,时间长、成本高。

○ 感知是指对有害信息的识别往往是针对性感知,只针对目标的有害类型,没有很好地利用场景内容信息,即过往内容风控是感知层面识别,而非认知层面推理。

○ 同时,对于有害类型的定义往往存在很多主观、边界、细节上的差异,频繁地根据标准的多样更替适配模型,无法真正做到差异化分级分层精准防护。

因此,如何提前感知与预防可能的安全风险、如何针对新出现的危害类型快速构建安全防护能力、如何全面综合场景信息进行深入认知推理、如何差异化分级分层精准防护,已经成为数字内容安全重要的挑战与难点。


三、AIGC 为内容风控带来新思路

当前 AIGC 的发展为提供更加通用、前置、快速响应的数字内容风控能力提供了可能。基于“世界知识”注入的 AIGC,将有更广泛的通用能力、创造能力、数据感知和知识融合能力。具体来说:

○ 基于其通用能力,在此基础之上进一步定制领域安全能力,内容风控的时间周期与成本将大幅缩减;

○ 基于其创造能力,内容风控将提前感知与预防未知风险,将”后置”转变为”前置”,减少了未知有害类型的隐患;

○ 基于其丰富的信息注入与融合能力,充分利用并融合场景、背景、知识等有害类型以外的综合信息,将提升内容风控的场景理解与知识迁移能力,进行更深层次认知逻辑推理与综合防控;

○ 基于其提示上下文学习范式以及思维推理过程,内容风控将在不更新模型的基础上更加便捷的适应不同的标准,差异化分级分层精准防控。


四、网易易盾:生成式 AI 技术赋能内容风控

基于上述思路,网易易盾利用生成式 AI 技术,研发了基于 AIGC 生成对抗防控、小样本有害信息识别、细粒度自适应识别、综合信息逻辑推理等方案,用最强的矛打造最强的盾。具体如下:

(1)基于AIGC生成对抗防控方案

为了实现安全风险提前感知与预防,基于 AIGC 创造能力,网易易盾研发了基于 AIGC 生成对抗防控方案,将原有的“发现+布控”改进为“发现+生成+布控”。该方案将生成当前模型无法覆盖或者识别效果差的有害类型与样本,并以当前主流的安全风险类型为基础,进一步通过 AIGC 方法模拟安全风险变化趋势,实现安全风险提前感知。进一步的布控方法包括结合 AIGC 生成样本进行联合训练迭代防控模型、构建 AIGC 生成对抗库定点防控等。


(2)基于AIGC小样本有害信息识别方案

为了实现数字风控能力高效快速构建,基于 AIGC 的通用能力进一步的研发专业领域能力,我们研发了基于 AIGC 小样本有害信息识别方案。将原有的从头构建“通用能力+领域能力”方案改善为“AIGC 通用能力+通用能力补偿+领域能力”构建的步骤。通过小样本通用能力补偿模块设计,以少量样本的代价弥补了 AIGC 通用能力在专业场景应用的差距,同时直接链接到领域能力构建模块。相比于从头构建通用能力,基于“AIGC 通用能力+通用能力补偿”的方式更加快速、高效、低成本。

(3)基于 AIGC 细粒度自适应识别方案

为了实现差异化分级分层精准防控,基于 AIGC 提示上下文学习范式以及思维推理能力,我们研发了基于 AIGC 细粒度自适应识别方案,将 AIGC 的提示学习的思想应用到有害内容理解解决方案中,并且通过探索将多模态提示与推理输入与不同标准进行对齐,使得通过不同的提示与推理输入来映射不同的标准。例如性感这个类型,以往很难再做更细粒度的拆解,或者拆解成本很高,现在可以更细粒度的拆解为比如沙滩场景的性感与夜店场景的性感,从而将类型标准细化为场景与样本,更好的适应不同主观性、不同边界的标准,更细粒度地实现分级分层精准防控。


(4)基于 AIGC 综合信息逻辑推理解决方案

为了实现认知逻辑推理与综合防控,基于 AIGC 的信息注入与融合以及逻辑推理能力,我们研发了基于 AIGC 综合信息逻辑推理解决方案。将原有的只针对有害信息的感知识别改进为基于包括有害信息在内的综合信息的综合认知推理。有害信息以外的综合信息以 AIGC 的方式获取,综合推理以视觉语言模型来完成。将原有的基于“领域能力的有害信息提取+决策”的方案改进为基于“领域能力有害信息提取+基于 AIGC 的通用知识提取+基于视觉语言模型的信息融合与综合逻辑决策”的方案。


五、生成式 AI 为内容风控带来显著收益

在数字内容风控场景,网易易盾研发并融合生成式 AI 能力,实现领域安全能力高效快速构建、安全风险提前感知与预防、认知推理与综合防控、差异化分级分层精准防控。相关解决方案的推出,帮助易盾从能力、数据、信息三个层面全面耦合了 AIGC 能力,并在客户实际应用的数字内容风控场景下,取得效果、成本、时效性、多样性、适应性、稳定性等方面的显著收益。点击免费试用易盾AIGC内容风控方案