网易易盾受邀参与“深度合成治理沙龙”，分享虚假内容检测实践

【行业资讯】2022-07-08

分享到

近年来，作为人工智能的领先创新，基于深度学习的合成类算法制造了许多新奇的体验，在图像、视频到语音中落地，无所不能。从社交圈内的“换脸”热潮到以假乱真的 Deepfake 诈骗案，关于深度合成技术的探讨已经持续了几年，大众对于这项技术并不是完全陌生。

为了促进技术的规范发展，“深度合成治理沙龙”于 6 月 30 日在线上举行，本次直播由“中国信通院”指导，“内容科技产业推进方阵”与“中国通信标准化协会”联合主办，聚焦深度伪造检测技术标准研讨。

网易易盾 AI 算法负责人李雨珂博士应邀参与直播，以“数字内容风控的新战事：深度合成算法治理实践”为主题发表了演讲。会后，作为信通院专家委员会成员，李雨珂还参与了“深度伪造视频检测服务技术要求与评估办法”标准研讨会的闭门讨论，结合技术视角与实际问题建言献策。

直播中，李雨珂从人脸伪造的例子出发，介绍深度合成伪造内容的风险，并结合易盾在伪造检测技术方向的实践工作，分享了合成类算法治理的业务体系建设和相关思考。

以下是李雨珂的演讲摘录：

2017年以来，深度合成内容被大量创作和传播，数量逐年高速增长。这些内容造成了虚假消息危机，不仅让我们看到了深度合成技术背后不可忽视的安全隐患与威胁，也意识到人类判断能力的脆弱，更要求我们在技术挑战面前携手同行，形成行业之间、监管与企业之间开展合作的共识。

以人脸伪造为例，利用深度伪造技术的财产、情感诈骗事件在国内外都有发生。在诈骗案中，一段段逼真的伪造视频轻易击溃人的警惕性，视频中的人物做点头、摇头、眨眼、张嘴、皱眉等动作，自然感无懈可击。更让人吃惊的是，人脸伪造已经形成了一个完整的产业链，只需要很低廉的价格就能买到人脸合成内容，人脸伪造的开源算法也易于获取。

又比如，人脸伪造引发了公众信任危机，在特殊时间节点对国际形势造成误导性影响。2022年3月，一段乌克兰总统泽连斯基号召士兵放下武器放弃战斗的伪造视频，在社交网络上疯传，最终总统不得不现身澄清。

基于上述案例，我们可以得到两个重要信息：

1 人脸合成的技术门槛已经较低，获取合成素材的成本也较低，这一现状令人担忧，我们和黑产的对抗本质上是投入成本的对抗。

2 合成素材即使存在瑕疵，或者说采用了粗劣的合成方法，也会造成舆论风波，引发安全隐患。就好比，简单的诈骗方式往往能够得手、夸张的谣言也会轻易获得大家的信任，这一群体现象值得关注。

在现实世界中，深度人脸伪造默默地产生日益明显的影响。正如我们刚才所见，各种类型风险的存在，对人民群众个人财产、社会风气以及国家安全造成威胁。一直以来，数字内容作为各个行业互联网化的重要推动力量，那么从业者应该怎么样保持其真实性与安全性？

值得注意的是，虽然技术创新衍生了非法利用与风险升级，但不能归咎于技术本身，正面的应对方式在于采用高效的技术对抗手段，既要对伪造内容做出精准判断以提示大众，也要为深度伪造检测技术制定标准。我认为，为了提升对虚假合成内容的响应能力，针对性建设深度合成内容的检测能力在内容风控中将变得越来越重要。

01 从学术研究到产业应用

网易易盾正在为大量企业客户的“数字内容合规”提供安全保障，以帮助客户免除不良有害信息的侵扰，当然这里也包括了有害的深度合成内容。

关于合成类素材的检测，尤其是人脸伪造检测。学术界已经尝试了很多方法，包括不同特征构建、网络结构设计、训练方法设计等等。目前，伪造素材检测至少有3个主流的探索方向：空间域瑕疵建模、频域特征建模、开源数据集构建。

1 首先，在空间域对瑕疵建模，这个方法的前提假设是在人脸合成的过程中，无论是 manipulation 变换过程还是 blending 融合过程的都可能产生瑕疵。

2 其次，部分合成方法或者后处理方法显示去除了空间域瑕疵的情况下，可以转换到频率域，去寻找频域中的蛛丝马迹，通过频域特征的各种建模进一步去挖掘可疑的信息。

3 最后，数据集构建在于从数据驱动的角度出发，通过构建更充分的开源数据帮助整个领域发展，也是算法上游重要的工作方向。

我们也发现，产业应用和学术研究之间存在一些差异。一个显著的问题在于，开放场景下的敏感内容识别不够精准，容易在闭集上过拟合，但是开放场景下精度和召回较难平衡。

为了解决上述问题，易盾推进了相应的算法工作。基础算法模型搭建是第一步，为持续的伪造内容对抗奠定基础。

面对合成方式不同，在合成素材收集和制作上持续加码，保障最终素材的多样性。面对后处理噪声，面向复杂后处理方式，采取数据增强工作。面对非平衡问题，提供更加全面并贴近线上数据分布的仿真测试。面对伪造方法进化，投入多模态方向工作。这里的多模态不仅包括视觉、音频的融合，也包括了广义上的对于单一媒体类型在空间域和频率域上的融合。

在基础模型构建之上，易盾也开展了算法层面的持续优化，包括不断积累真实场景的数据，充实合成方法集合，做好“数据流程”方面的工作，进而探索更有效的鉴伪特征提取方式。

此外，在内容识别的基础上，我们依托行为模型和策略系统，对潜在的风险用户及其内容进行粗召回，策略在这一工作中也会发挥重要的作用。

最后是技术能力的横向拓展，主要涉及四大工作方向：

一是伪造内容溯源，通过舆情系统，并结合业务专家知识快速定位源头，进而下一步做相似内容检索，回捞风险数据。二是伪造实现方法的判断分析，跟进高频出现的伪造方法，并采取相应跟进措施。三是专门制作指定人物的伪造模型，让布控更具针对性，更贴近实际场景下的内容风险“重点”。四是通过我们正在持续跟进的领域泛化技术，帮助模型适应新的场景，降低场景缺少匹配度带来的新风险。

02 安全机制与合规落地

内容合成产业存在着“内容合成服务提供方”、“监管机构”、“内容风控服务提供方”等不同的角色。我们认为优质的“内容风控服务提供方”应该能够围绕着这些角色在不同过程中输出专业化能力，并推动各方联动。

在服务治理过程中，我们首先提供优质的安全咨询服务，帮助企业熟悉相关合规知识，全面评估安全风险，然后输出标准化的整改方案，进而帮助合成服务提供方进入标准化生产管理，降低算法和数据带来的合规风险。

在传播治理过程中，我们首先提供在上述内容中提到的机器检测能力，再通过审核专家对“合成类风险内容”做进一步的理解和分析，形成专业的分析报告与举措建议，最后在明确“合成内容安全风险”的情况下，开展风险溯源，并及时上报信息，从而实现充分的安全联动。

结尾

套用经典的“机器人三定律”于“人工智能”之上，人工智能应该服从人类，保护人类，而不能取代或者伤害人类。

在丰富的使用场景下，合成类的算法担任着提高内容生产效率的工具角色，但在这一过程中有必要借助成熟的内容安全服务和经验对合成类算法能力做出规约。

内容安全服务也将在数字内容生产、传播、管理中起到更加关键的作用，就好像环保对于制造行业的意义，以及食品安全对于食品行业的意义，在数字内容生态中成为标准化、立体化的基本服务。我们期待与各大企业机构与相关部门交流合作，促进深度合成技术的良性发展，发挥人工智能的最佳效力，谢谢大家！

分享到

网易易盾受邀参与“深度合成治理沙龙”，分享虚假内容检测实践

热门标签

热门文章

Unity 引擎高危漏洞 CVE-2025-59489 深度解析：覆盖十年版本，游戏行业迎安全大考

多模态大模型综合防御体系，构筑金融安全 “护城河”

新规将至，网易易盾「AI生成识别」破局合规焦虑

国内首个！网易易盾参编国标《生成式人工智能服务安全基本要求》，领先助力行业健康发展

2024年度游戏安全报告发布：200+亿次风险检测背后的攻防全景