网易易盾 | AIGC内容风控解决方案

【易盾动态】2023-05-13

分享到

2023年，注定是AIGC发展的关键一年，它标志着人工智能逐渐从学术研究走向产业化，并与商业融合形成互为支点的发展格局，进入产业商用期。

技术无罪，商用却有风险。不少AIGC平台在上线后仅仅几天时间内就频频遭遇翻车。究其背后,是国家对人工智能技术发展的引导和规范体现。

4月11日，国家互联网信息办公室公布了《生成式人工智能服务管理办法（征求意见稿）》（以下简称办法）。这代表着，国内即将迎来首个AIGC新规。其中，在《办法》的21条政策中释放出了一条的关键信号，国家支持AIGC的健康发展和商业应用，前提必须是合法合规，且有13条规定都明确指向了”AIGC 提供商“。

在此背景下，网易易盾从AIGC提供商运营角度出发，结合国家政策与丰富的行业经验，提供覆盖事前—平台运营前置的风险、事中—平台内容合规风险、事后—投诉与违规处理风险的全流程解决方案。

01 事前—平台运营前置风险

1. AI算法治理

从算法治理角度出发，AIGC提供商有责任在平台投入使用前对可能产生的问题进行预估、判定并制定相对应的措施，对算法使用过程中的安全监测、算法评估以及算法推荐对个人信息主体带来的影响等内容进行规范。

同时，《办法》中明确规定，AIGC服务及生成内容必须“符合社会主义的价值观”，防止出现民族、信仰等歧视、尊重商业道德、尊重他人合法权益、“防止生成虚假信息”等意识形态与价值倾向问题。

因此，人工智能服务提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责，提供预训练和优化训练数据的来源等描述，人工标注规则，人工标注数据的规模和类型等必要信息。

由于大模型依赖训练数据，在数据输入层面可能会存在恶意操纵的风险，包括有毒输入、偏见、意识形态攻击、舆论操控、虚假信息、隐私泄露等。因此，模型训练语料库基本决定AIGC生成内容的价值观。数据标注是AI数据训练流程中的“关键一步”，纯净、贴合AI应用场景的数据源可解决数据训练中90%的问题。

对此，易盾可对模型训练语料库提供人工标注服务。易盾拥有头部企业海量数据的标注经验，可快速、准确地提供专业人工标注服务，涵盖文字、图片、音视频及特殊场景和人物，同时对激增数据量可建立应急响应流程，为模型训练提供贴合使用场景的高质量数据。

2. 安全管理制度

用户认证管理

AIGC提供商需提供涵盖用户认证、重点群体保护和算法透明服务。按照《中华人民共和国网络安全法》规定，提供生成式人工智能服务应当要求用户提供真实身份信息。

在强化信息认证能力方面，易盾提供多种身份验证方式，灵活组合；创新算法能力，有效应对AI技术合成人脸、3D面具等假体攻击；同时在登录注册或使用AIGC服务前集成调用信息认证能力，减少恶意注册的安全风险。

技术安全评估

《互联网信息服务深度合成管理规定》第二十条深度合成服务提供者开发上线具有舆论属性或者社会动员能力的新产品、新应用、新功能的，应当按照国家有关规定开展安全评估。

易盾可协助AIGC提供商建立健全AIGC相关的安全管理制度及业务技术资料的支持，协助企业进行现场迎检，包括文件准备，人员访谈，技术检测，问题记录，问题整改。

服务算法备案

AIGC提供商应按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续。易盾可提供算法备案咨询全流程服务，协助企业完成备案信息填报。

02 事中—平台内容合规风险

1.AI实时交互内容审核

为了遵守法律法规和体现社会主义核心价值观，对于实时交互内容审核和利用AI生成内容，需要加强敏感内容审核，例如涉政、涉黄、涉暴等内容，以确保信息的安全和合规性。然而，特殊的prompt指令可能会绕过AI自身的安全机制，增加审核的难度和复杂度。

为了解决这个问题，网易易盾提供了针对AIGC+UGC场景下的机器审核能力，可根据业务场景配置审核的松紧程度，选择适当的审核策略来满足不同场景的合规要求。

如在语聊对话场景中，存在真实用户和智能机器人两种角色，这要求机审能够快速识别不良信息，确保人机聊天的实时性。易盾的机审技术可根据业务场景不同，在UGC内容和AIGC生成内容配置不同的松紧度审核策略，兼顾用户使用体验和内容安全合规性。

2.上下文关联分析+人审

AI生成内容由于算法机制原因，存在用户利用敏感话题、循序诱导提问等方式输出不当AIGC内容的情况，特别是包含多条上下文内容，单词条阅读没有问题，关联上下文多词条阅读会有违法违规的信息，违法人员常借用藏头诗、情景剧本、歌词等形式生成长文本（长图）分享，来躲避平台的审查机制。

网易易盾自主研发AI语义分析技术，提供AI机审上下文关联能力；并结合人工审核，对AI生成的长图分享、记忆薄等内容进行关联检测分析。另外易盾自主研发的人工审核系统能还原真实对话场景，区分AI机器人与真实用户的会话，大幅提高审核精准度及审核效率，有效识别和防范用户利用敏感话题、循序诱导提问等方式输出不当信息。

3.AI伪造内容识别

由于Deepfake等技术的滥用可能会导致严重的诈骗和欺诈行为，因此需要采取措施来打击AI滥用行为。易盾基于深度伪造识别算法，打造了动态防御机制，可以识别由AI生成的视频或音频。这种技术可以识别Deepfake等虚假信息，从而保护社交网络和其他在线平台的用户免受欺诈和诈骗的侵害。

03 事后—投诉与违规处理风险

网易易盾可协助用户建立投诉接管机制，建议平台提供用户投诉举报渠道，鼓励用户参与平台内容治理，易盾智能审核系统也将提供用户投诉举报审核机制，打通机器审核和平台业务接口，及时对用户投诉举报内容进行审核处置。

AIGC大大降低了创作门槛,为信息生产和传播带来了新的变革和机遇。对于AIGC提供商而言，与机遇并存更多的风险与挑战。

新技术与新行业的发展往往与政策合规相辅相成，如何在合规的基础上稳步实现应用落地、推进产品迭代，是AIGC提供商入局后绕不开的一点。作为新一代数字内容风控服务商，网易易盾将帮助AIGC平台合规发展，为新行业的可持续发展持续做贡献。

根据《互联网信息服务深度合成管理规定》对于由AI生成的图片、视频等内容需要进行标识，以确保信息的真实性和准确性，避免虚假信息的传播造成不良影响。网易易盾建议平台提供深度合成内容的显著标识功能，用户在创作AIGC内容的时候可以自行完成显著标识的标记操作。标识AI生成的内容，以及采取防御措施来打击AI滥用行为，是确保互联网信息安全的重要措施。

点击了解易盾AIGC内容风控方案，免费试用

分享到

网易易盾 | AIGC内容风控解决方案

热门标签

热门文章

Unity 引擎高危漏洞 CVE-2025-59489 深度解析：覆盖十年版本，游戏行业迎安全大考

多模态大模型综合防御体系，构筑金融安全 “护城河”

新规将至，网易易盾「AI生成识别」破局合规焦虑

国内首个！网易易盾参编国标《生成式人工智能服务安全基本要求》，领先助力行业健康发展

2024年度游戏安全报告发布：200+亿次风险检测背后的攻防全景