面向 AIGC 的内容风控新技术

【技术干货】2024-01-04

分享到

01 引入

大模型和人工智能生成（AIGC）等先进技术的发展为我们带来了许多新的应用红利，但与此同时也带来了一系列安全隐患。例如，文本问答技术可能生成负面回答内容，文本生成图片技术可以用于合成各种类型的不适合在公开场合传播的敏感图片。为了缓解这些安全问题，首先模型本身需要在训练过程中进行面向安全领域的内在技术调整，以通过基础的风险评测，达到基本安全可用。除此之外，为了进一步提升实际应用的可控性和完善安全流程，引入独立的第三方内容检测能力作为安全护盾是至关重要的。在新技术推广应用的过程中，这种独立的检测机制能够提供的额外保障，确保生成的内容符合道德、法律和社会准则。这种独立的第三方检测能力可以辅助模型本身的安全调整，有效减少潜在风险，形成一个有机的双重保障系统。

大模型和人工智能生成（AIGC）新技术的广泛应用让内容安全检测直接面临了三个严峻的挑战：

有害内容的生产速度变得更快，可借助网络传播迅速蔓延，这要求第三方内容检测能够以更快速、高效的方式进行检测。

有害内容的种类不断新增和变化，包括各类言论攻击、虚假信息、违法内容的变种，需要具备更敏捷、灵活的应变能力。

随着各类风格生成和融合技术的进一步发展，有害内容的识别难度随技术发展而增大，需要更强劲更细致的检测能力。

事实上，即使在 AIGC 能力取得全面发展之前，上述提到的生产速度快、变化多、难度高的问题，在内容安全场景里长期存在，因此相对应的技术方案和处理思路已经得到了一定的积累，能够初步应对较为简单的 AIGC 安全问题。但在 AIGC 兴起的新形势下，困难和挑战明显被抬高了新的层级，从后端算法角度进行一轮完整的技术升级具有必要性和现实意义。

作为独立的内容检测能力，结合早先的实践经验，从技术角度可能可以通过三个方面的升级来应对新形势下的困难和挑战。

在训练数据层面，建立更丰富、多样化的训练数据集至关重要。这样的数据集应该包含各种类型的有害内容示例，以便训练模型更全面地识别和检测不良内容。还需要考虑数据的时效性，及时更新数据集以适应新出现的有害内容形式。

在模型训练层面，可以采用基于大规模预训练模型的小样本学习方法。预训练模型通常具备强大的语义理解和特征提取能力，但在面对新出现的有害内容时可能表现不佳。通过在小样本上进行微调和训练，可以使模型更好地适应新的内容类型，并提高检测的准确性和鲁棒性。

在算法策略层面，多元信息融合、多模态融合是一个值得探索的方向。例如，多模态融合的策略通过将文本维度和图像维度信息进行联合分析和综合评估，可以更好地识别潜在的有害内容。

由上述分析我们可以看出，面向 AIGC 的内容风控技术升级，在算法优化部分，本质上是一个面向特定领域、复杂对抗、困难案例的效果优化过程，而在这一过程，充分借助当前 AIGC/大模型技术的发展成果，提升内容安全垂直领域的防控能力，可能是一个关键步骤。

接下来本文将沿着上述提到的三个技术升级方向，结合易盾近期自身围绕 AIGC 的技术实践，围绕“用魔法打败魔法”的建设思路，分享相关能力的技术升级方案和细节。

02 技术实践

更高效的数据收集

这部分内容将围绕数据的生成、挖掘、标注三个方面进行展开讨论，通过AIGC能力构建更高效的数据收集流程。

1. 利用跨模态生成技术扩增训练数据

训练数据是算法模型搭建的基础，在内容安全场景下，由于出现频次和数据分布等原因，数据缺乏是一种常见的现象，通过文生图、图生图等方式进行训练数据扩充，是一种较为直观的思路。接下来将以风格化人物识别任务为例进行方法介绍，该任务的主要目的是识别出将目标真实人物抽象化成卡通人物形象的图片素材。我们知道当前一系列 AI 换脸工具已经提供风格化人脸的功能，可以快速实现人物风格化，从而引发了新型的二创敏感素材风险。经过我们对实际漏误判、常见风格化类型的观察发现，从算法优化的角度出发，存在着以下难点：

○ 现存样本数量稀少、分布稀疏，难以大批量集中发现和收集。

○ 样本分布呈现特征多样性，从面部、穿着、举止等各种维度的风格化图像皆有，需要识别的范围广。

为了解决算法优化的难点，最终提高模型识别的泛化性和准确性，我们将针对实际常见的漏判误判，基于扩散模型优秀的图像生成能力和强大生成可控性，通过批量合成相应的风格化数据来优化深度学习模型。

具体实施方法如下：分析实际风格化数据的特点，并通过 Stable Diffusion 对不同类型的风格化图像进行针对性生成。其中包括两种具体方法：

○ 一是基于 txt2img 生成基于着装、动作的风格化类数据；

○ 二是基于 inpainting 对脸部 mask 区域进行重绘，以生成带有目标人脸部特征的风格化数据。同时，项目充分利用了 LoRA、ControlNet、Roop 等控制插件，大大提高了生成图像的质量与生成内容可控性。

算法关键流程展示如下图：

以上方法支持定向生成相应类型的风格化数据样本，在风格化人脸识别任务上，可节约风格化类数据 60% 以上的标注量，并有效提高了最终模型对风格化类漏判召回和识别精度，解决了运营反馈 85% 以上的风格化类漏判案例，整体识别精度从 30% 提高到了 90% 以上。

除了上述面向 AIGC 相关问题进行数据生成的案例，该方式同样适用于其它数据缺乏或者标注困难的算法应用场景。以未成年人保护项目中的年龄识别任务为例，现有年龄识别模型使用的训练数据集包含的类型、场景、风格有限，而且具有明显的长尾分布，中间年龄数据多，两端年龄数据少，严重制约了年龄识别模型的训练效果。为了提高年龄识别准确率，我们较难绕开数据收集这一关键步骤，但当前定向搜索、通过已有模型筛选年龄数据等方法也不切实际，同时，不同人对年龄的判断标准存在不一致，通过数据标注获得可靠的年龄训练数据难度很大。为了解决上述问题，我们采用了 GAN、Diffusion、跨模态模型 StyleCLIP 等多种 AI 相关技术，通过对现有的有标签的公开年龄数据集进行年龄修改，年龄生成，有效获得多年龄段的训练数据。对于生成的数据，我们使用跨模态模型 BLIP 进行数据标注和数据清洗工作，从而解决了人脸年龄标注困难大、成本高的问题。

当然，在语音相关服务中也存在类似问题，我们也可以利用 AIGC 模型，通过文本生成相应的语音的方式，来定向生成所需类别的语音，以解决这些问题。以某声音场景识别服务为例，我们利用 AIGC 模型生成了大量带笑声、哭声、叹气声、嘈杂背景、动物叫声的音频扩充负样本数据集。这样一来，模型的鲁棒性得到了增强，服务的准确性也得到了提升，成功解决了 92% 的实际业务反馈难例。

但容易发现，目前上述方法更多是偏经验主义的手段，如何从理论的角度找到更有依据的扩充样本类型的手段，进而更合理更有效地扩大防守面积和防护空间，是一个非常困难且值得研究的课题。

2. 利用跨模态检索技术挖掘训练数据

内容安全识别领域中，样本数据呈现长尾分布特点，我们所关注的“不良有害样本”分布极少且样例难度较大，极大程度地增加了捞取数据的难度和所需消耗成本。目前常见的数据捞取方法主要是借助已经训练好的多个模型打伪标签，但其能力、效果和精度严重受限于已有数据集分布和模型能力的限制。在此情况下，采用跨模态捞取方法让高效数据捞取成为可能。

跨模态捞取方法的意义在于融合多种信息源，同时利用图像和文本信息进行检索，充分发挥不同模态的特点和优势。这种方法能够提供更丰富的语义表示，可以实现多种目标类型数据的捞取。同时，借助海量通用类型的预训练数据和大模型能力，跨模态捞取方法从“引入多种模态信息、借助大模型能力、借助海量预训练参数”的角度，可在一定程度上打破现有已获取数据集与模型能力的限制。

采用跨模态检测来捞取数据的方法思路是：首先将需要捞取的类别转化为文字 prompt，借助大规模跨模态预训练模型的文字编码和图像编码能力，通过图文检索和图文配对的方式实现对目标类别图像的捞取，从而实现数据捞取目的。

算法关键流程展示如下图：

以 BLIP2 预训练模型为例，进行跨模态数据捞取，并结合 GroundingDINO 等方法二次打标检查，实现了“自动化捞取+数据清洗”，数据获取的速度、标签的准确性大幅提升，在部分任务上，可节省 80% 数据标注量，数据捞取环节可以节省 10 天以上，多次迭代后实际服务召回精度提升 20% 以上。上述方法如果使用垂直领域的大模型将取得进一步的效果收益。

以上案例主要可在视觉任务中取得应用，类似地，在语音任务中，为了获取语音分类的半监督数据，我们采用对比学习的方式，将音频特征空间和视觉特征空间对齐，从而间接的对齐音频和文本特征空间，这样可以实现通过文本搜索音频的方式来扩充训练数据。我们利用语音和图像的成对数据，通过语音（speech encoder）和视觉大模型（image encoder）分别提取语音和图像的表征，并通过对比学习使得两个模态的特征空间对齐，这样语音和文字的特征空间也间接被对齐。在捞数据阶段，我们可以复用以文搜图的方式，通过文本的输入来获得具有相似语义信息的音频，进行半监督训练。

3. 利用跨模态模型进行数据标注

相较于分类级别的数据标注，检测级别的数据标注要更加的复杂和耗时。为了实现对待标注数据进行检测级别快速、准确地标注，减轻手工标注带来的时间成本和经济成本。同时，为了在面对新增标签时能够快速生成检测任务所需的标注数据。我们基于跨模态开集目标检测器 GroundingDINO，搭建了一套目标检测流水线式打标的工具包。该工具包利用 GroundingDINO 优秀的跨模态信息交互、多尺度特征融合能力，能够实现流水线式的检测标注生成，并支持使用者根据具体场景进行针对性策略微调以提高标注精度。

该工具包具有两大优势：

○ 利用开集目标检测器 GroundingDINO 丰富的文本、图像跨模态理解能力和强大的多尺度特征提取识别能力，在不需要额外训练数据的基础上实现对各类目标的分类和定位。

○ 支持批量转化标准格式文件、标注结果可视化分析、保存指定标签标注、后处理去除冗余框等便捷式功能，助力使用者快速、高效生成目标检测的标注文件、并检查标注结果。

该工具包的研发落地为快速、准确地实现各类目标的检测标注生成和导出提供了良好的技术支撑。

算法关键流程展示如下图。

以上流程图仅以电子烟的检测标注获取为例，展示了工具包工作的整体流程。如上述流程图所示，该工具包主要分为 3 个部分：GroundingDINO 初始结果生成、检测结果后处理、标注结果导出与验证。在使用时，首先将类别的文本短语集合（例如：电子烟和形似电子烟目标的口红、彩笔、香烟等）、待标注的图像队列、标注功能需求等作为工具包整体输入，然后利用跨模态开集目标检测器 GroundingDINO 丰富的跨模态信息提取与高度泛化的检测定位能力，得到初始的检测结果；接着，根据功能侧的输入需求，进行检测框的后处理，包括去除近似框和筛选所需的目标类别等，得到有效结果，滤除冗余框；最后，对处理后的结果进行格式转化、文件导出和结果验证。

GroudingDINO 目标检测流水线式标注工具包在多个项目中进行了实际场景应用。例如，在不良行为、违禁物品识别项目中，面向多种标签类型，该工具为候选数据检测级别的标注提供了有力的支持，节省大量检测级数据标注的成本，使得检测标注的时间周期下降约 80% 以上，能够较好地缓解目标检测任务数据标注带来的较高的时间成本和经济成本。

更强大的基础模型

以下内容将重点介绍两种前沿基础模型的应用，利用跨模态预训练加强垂直领域内的学习能力。

1. 基于图像文本跨模态模型的自训练服务

跨模态预训练模型的独特之处在于其使用了更丰富的学习内容和更具挑战性的学习任务，从而在一定程度上捕捉了语义表达信息，并在特征空间中展现出更强大的表示能力。这使得它成为下游任务学习的有力助手。为了迅速满足客户的个性化需求，我们致力于提供更加敏捷的运营工具。因此，我们设计了一款基于图文跨模态模型的自训练平台，该平台借助跨模态模型强大的语义识别能力，能够快速实现通用图像物体识别的大部分需求。自训练平台的主要优势在于快速和简便。快速体现在从需求提出到功能上线的时间大大缩短，同时也降低了开发成本。而简便之处在于操作人员无需具备专业的算法基础和代码实现知识，即可轻松实现自训练，这使得我们的平台更加易用和高效。

算法关键流程展示如下图：

如图所示，自训练平台包括从收集数据到模型训练，再到模型验证和发布等步骤，其关键模块为以图文跨模态模型为核心的数据导入和模型训练。

例如现在要实现一个未成年人保护相关的识别任务，那么主要实现步骤包括：

○ 收集相关数据并创建模型，将数据导入平台。

○ 在数据导入之前，使用相关工具辅助筛选和过滤不适合训练的数据。

○ 模型训练部分支持零样本学习和参数高效微调，以提高训练效率。

○ 效果验证部分用于评估模型效果，重点关注准确率、召回率和精确率等指标，满足要求后可将模型发布上线。

○ 最终借助上述高效的迁移学习能力，可以更准确识别指定风险数据，目前我们已支持十余项新型风险识别能力，定制成本减少 80%。

值得注意的是，上述方法在垂直领域大模型的加持下将可能取得进一步的效率和效果收益。

2. 基于语音基座大模型的统一识别服务

以上介绍了图像领域中跨模态模型的应用，在音频领域，为了提高语音分类服务的准确度，我们将利用强大的大型模型的特征表示能力，并将其迁移到我们的语音分类任务中。鉴于训练数据和计算资源有限的情况下，为了迅速响应用户对新增语音服务的需求，我们采用了统一的基座大型模型，并结合了高效的微调策略，如 LoRA 和 Prompt Tuning 等。这些策略能够在有限的资源下快速调整模型，以适应不同的语音分类任务，从而提高服务的响应速度和灵活性。通过这些方法的应用，我们能够在音频领域实现更准确和高效的语音分类服务。

关键流程图如下所示。

我们基于统一的语音基座大模型，针对不同的语音任务训练了不同的 prompt 或者 LoRA。以上基于大模型的统一语音分类服务架构能够利用大模型的泛化能力，从而提升已有语音服务和新增语音服务的识别能力。在已有的语音下游任务中，相较于小模型，大模型在通用场景中的识别性能提升了 10% 以上，在难例和边界情况下的提升超过 15%。在新服务启动阶段，特别是在有监督数据量较少的低数据资源场景下，相较于小模型，大模型的识别性能提升了约 20%。同时，统一的模型架构和训练策略使我们的框架具备良好的可扩展性。对于新增业务需求，无需根据训练数据和业务特点来适配不同的模型架构和训练策略，只需新增一个业务特定的 LoRA 或 prompt 即可。

更综合的解决方案

以下内容将呈现多元融合、多模态融合在解决方案层面对于困难问题发挥的重要作用。

1. 基于多元特征融合的人物识别方案

在这一小节，我们继续以风格化人物识别为例，除了从数据的角度进行扩充，我们还将从算法设计的角度进行技术升级。针对特定人物的检测，当前业界主要的解决方案就是人脸识别，但在一些特殊场景仅靠人脸识别无法准确地识别出目标人物，除了 AIGC 风格化场景，还包括：

○ 图片信息在传输时压缩严重，人脸模糊。

○ 人脸在图片中占比非常小，检测不到人脸。

○ 人脸被遮挡，包括无意或刻意对抗的情况。

符合上述几种情况的目标人物图片难以被人脸检测器检测到，具有较高的技术难度。除此之外，我们知道遮挡或者模糊人脸并不适合直接入人脸库，直接入库对于识别结果的精度会带来一定伤害。

经过我们的思考，面部特征虽然是人体最不易改变的特征，但单一特征易受攻击，且篡改成本较低。在人脸被篡改或者模糊化的情况下，人体其它特征其实受影响较小，仍然能通过其它人体特征来确定人物身份（比如知名人物戴了口罩我们也能认出来）。在确定人物身份时，不仅应考虑人物的人脸特征，服装体态等人体特征，甚至图片场景特征，都是有效的辅助信息。而且人体、场景等特征受图片质量压缩影响更小，篡改成本也更高。按照此思路，我们使用了基于多特征融合的人物识别方案，通过融合人脸、体态、场景等特征，综合识别人物身份。其中特征匹配模型采用了自监督预训练和基于三元组损失的对比学习微调方案。关键算法流程如下。

最终以上方法相对提升人脸召回 10%，精度高达 98%，不但弥补了面向 AIGC 场景检测能力偏弱的问题，同时有效缓解了模糊场景、视频流等低分辨率场景下目标人脸召回率低的问题，召回结果包含“侧、小、遮、改、AI 生成”的目标人物漏报难例样本，很好的弥补了单一人脸识别的瓶颈。

2. 基于跨模态特征增强的少量样本检索方案

在我们的实际业务中，由于在不同行业中，监管的重点和方向各不相同，而通用能力无法完全满足各行业的需求，因此，定制化需求经常出现。针对客户的定制化需求问题，除了通用能力无法覆盖的问题外，还存在几个问题：

○ 标准细粒度不通用。标准是当前客户独有的。

○ 数据分布有限。客户所提供的样例数少。

需求紧急。会存在危害性强且时效性短的违规样例，同时市场变化迅速，竞争对手的变化、新技术的出现以及新政策等都在不断发生。

因此我们需要在满足效果要求的同时，还需要重点关注敏捷快速响应的能力。

我们从算法角度进行创新，提出了一个基于特征增强的小样本技术方案，更加敏捷快速响应客户定制化需求。

这个方案有几个创新与优势：

○ 在零样本的条件下，有简单的 zero-shot 的能力，当然这个能力相对初级。

○ 在 few-shot 的情况下，召回能力有进一步提升，并且通过信息增强模块设计，效果有进一步的提升，可以在小样本的条件下通过简单的训练直接达到业务输出的要求。

○ 在视觉语言预训练模型的基础上，构建了一组 key-value cache 模块，这个模块包含了少量的可用于训练的图像视觉特征，以及其相应的标签转换为 one-hot 编码，其中值得注意的是，虚线框中的这部分既可以是固定的,也是可以训练的。

整体的算法流程图如下所示。

训练后的效果较未训练前有进一步提升。通过这种方式，最终的结果涵盖了视觉语言模型和 few-shot 训练数据集的知识。整个方案可以在小样本的条件下通过简单的训练或者不训练，直接达到业务输出的要求。以上工作参考了上海人工智能实验室的 Tip-Adapter 工作。

该方案支持在一个框架中新增多个不同识别任务，新增任务仅需调整输入文本和部分少样本图片，甚至有的业务可以直接采用文本进行，代码改动量几乎为零。不改变模型结构，仅通过新增少量图片（百量级）带来算法效果提升。在某个项目上实现 97% 的召回下精度达到 87.6%，支持了业务高效迭代。

3. 基于大语言模型前置过滤的定制化解决方案

在内容安全识别领域，我们反复提到有害信息的范围和类型非常广泛，且层出不穷。由于缺乏广泛且可靠的通用能力，我们通常需要针对不同的有害类型进行模型定制训练。然而，不同有害类型之间存在很大差异，因此每次定制都需要从零开始构建专业领域能力，这往往需要较长的时间周期和较高的成本。为了实现高效快速构建数字风控能力，我们在大型语言模型（LLM）的基础上进一步研发了专业领域能力，并设计了一套基于 LLM 微调的内容安全解决方案，用于前置路由。通过基于 LLM 的微调，我们能够将专业领域能力注入到模型中，使其具备针对特定有害类型的初步识别能力。这种方法相对于每次从头构建专业领域能力来说，能够显著缩短开发周期，并降低成本。同时，由于 LLM 具备强大的语义理解和生成能力，它能够提供较为准确、细致的内容分析和识别，保证有害信息识别的准确率和效率。

算法关键流程展示如下图。

03 总结

综上所述，大模型和人工智能生成新技术的广泛应用带来了挑战，包括生成速度加快、内容类型多样化和难以识别的问题。作为第三方内容检测，可以通过训练数据层面、模型训练层面和算法策略层面的升级来应对这些挑战，以提高检测效率、适应新形式的有害内容并增强检测能力，沿着这一线路，易盾已经取得了一定的实践经验和业务结果。易盾技术升级加强了对有害内容生产速度的应对能力，通过更快速、高效的检测方法和工具来应对快速扩张的问题。同时，加强了对新型有害内容的分析和识别能力，采用灵活、敏捷的算法来适应不断变化的挑战。此外，还投入更多方案来提升对复杂 AIGC 生成内容的检测能力，以应对不断增加的识别难度。这样的升级将为保护用户免受有害内容侵害提供更强有力的支持，并推动 AIGC 技术在安全可控的前提下持续发展。

除了技术升级，第三方内容检测还需要与相关机构和平台合作，共同制定和执行安全标准和规范。这包括建立合作机制、信息共享和及时响应机制，以及加强对违规内容的处理和处罚措施，也包括了规划科学的技术应用线路，提高企业与用户的安全意识。在大模型和 AIGC 新技术广泛应用后，保障内容安全面临诸多困难和挑战，通过技术升级、合作机制和教育宣贯等多方面的努力，可以更好地应对新形势下的安全问题，确保人工智能技术的合规使用和健康发展。

网易易盾AIGC内容风控方案，覆盖了整个AIGC从数据训练、内容生成及合规风险等整个周期，点击免费试用

分享到

面向 AIGC 的内容风控新技术

热门标签

热门文章

网易易盾接入DeepSeek，数字内容安全“智”理能力全面升级

数字内容风控圈「顶流」的 2024 年终总结

2024年度游戏安全报告发布：200+亿次风险检测背后的攻防全景

“AI换脸”骗过人脸识别？黑产攻击新手段应如何防御？

网易易盾亮相FCIS 2024网络安全创新大会，分享AIGC内容安全体系建设经验