在2025年国家网络安全宣传周上,昆明主会场发布重磅内容 ——《人工智能安全治理框架》2.0 版(下文简称为《框架》2.0)正式发布,为我国人工智能安全发展指明了新方向。
在此背景下,网易易盾作为数字内容安全领域的领军企业,在人工智能安全治理分论坛上同中国网络空间安全协会发起《人工智能安全行业自律倡议》(下文简称为《倡议》),并以“GB 45438-2025《网络安全技术 人工智能生成合成内容标识方法》标准(下文简称为《标识办法》)在人工智能服务内容审核系统中的应用实践”成功入选网络安全国家标准应用实践案例库。
这两项重要成果,不仅彰显了网易易盾在AI安全领域的技术实力与行业担当,更与 "人工智能+" 行动的安全要求及新版治理框架形成深度呼应,为构建安全可信的 AI 发展生态注入强劲动力。
锚定《框架》2.0,引领自律新风向
《人工智能安全治理框架》2.0 版在 1.0 基础上实现了横向拓展与纵向加深,新增 "可信应用、防范失控" 核心原则,提出人类最终控制、价值观对齐等8项可信人工智能基本准则,并建立了科学的风险分级机制,将AI安全风险细化为技术内生、技术应用和应用衍生三大类, 制定了30项技术应对措施和14项综合治理措施。这一框架升级充分体现了我国在AI治理领域 "发展与安全并重" 的战略思路,为行业发展提供了清晰的合规指引。
在2025国家网络安全宣传周上,网易易盾作为核心企业参与《人工智能安全行业自律倡议》的发布,正是对 “法制化+技术治理” 双轨路径的积极响应。

图1:《人工智能安全行业自律倡议》发起单位部分截图
在技术内生安全风险防范方面,易盾针对框架重点关注的模型开源风险,构建了多维度的模型安全防护体系,通过内容安全能力建设、大模型安全围栏等技术手段,有效防止开源模型被不法分子滥用训练 "作恶模型"。
在技术应用安全风险防控方面,针对框架指出的 "污染网络内容生态" 等问题,易盾的内容安全解决方案实现了对 AI 生成内容的全流程管控,通过大模型测评工具、AI生成识别等技术能力防止恶意注入和违法内容生成,同时严格落实AI生成内容标识要求,实现可识别、可追溯、可信赖的治理目标,与框架要求高度契合。
值得注意的是,框架2.0特别强调的 "提升全生命周期安全能力" 在网易易盾的实践中得到充分体现。易盾构建了从模型训练、产品上线到应用部署和产品运营的全链条安全保障体系,通过安全语料服务、AI实时检测、模型横向评估等技术手段,实现了大模型生命周期的安全可控。这种实践不仅响应了行业自律的要求,更为框架落地提供了可操作的实施路径,展现了头部企业在行业治理中的标杆作用。

图2:网易易盾大模型内容安全体系能力图解
践行《标识办法》,筑牢 "人工智能+" 安全底座
随着国务院《关于深入实施 "人工智能+" 行动的意见》将 "人工智能+" 升级为国家战略行动,AI技术与经济社会各行业各领域的融合不断加深。2025年9月1日起正式生效的《人工智能生成合成内容标识办法》,标志着我国在 "人工智能+" 行动背景下的内容安全治理进入新阶段,该办法构建了显式与隐式双重标识要求,覆盖内容生成全链条,为AI应用安全提供了制度保障。

图3:网易易盾创新合作部负责人苗晴晴出席(右二)
网易易盾以“GB 45438-2025《网络安全技术 人工智能生成合成内容标识方法》标准在人工智能服务内容审核系统中的应用实践”,成功入选网络安全国家标准应用实践案例库(人工智能安全方向),其案例正是对 "人工智能+" 行动安全要求的生动诠释。

图4:网易易盾获网络安全国家标准应用实践案例库
针对 "人工智能+" 行动中 AI 内容识别溯源这一系统性治理难题,网易易盾基于自研的安全大模型,创新地构建了 “标识识别+AI生成检测模型” 的双重检测体系,整合了文本、图像、音频、视频等多维度的 AI 识别技术,实现了对 AI 生成内容的精准识别和溯源追踪。

图5:网易易盾AI生成识别能力架构
技术上,依托垂直领域文本大模型、VL大模型、细粒度标签大模型、OCR大模型等基座,通过样本泛化生成、跨模态对齐等技术,目前易盾已将安全模型训练时长压缩至天级别,单标签精度显著提升,以应对日益复杂的网络环境。
性能上,核心API准确率达99.8%,年过滤数据超1万亿次,精细化分类达300+,既能满足生成内容标识的法规要求,又能有效预防AI诈骗、保护隐私与版权。
该能力不仅满足了《标识办法》对显式标识的要求,更通过隐式标识技术在文件元数据中嵌入生成者信息,为责任认定提供了技术支撑,形成了 "生成即标识、传播必核验" 的闭环管理,为 "人工智能+" 行动的安全推进筑牢了技术底座。
协同共治,构建AI安全发展新生态
《框架》2.0 版强调构建 "跨国界、跨领域、跨行业" 的协同治理格局,而 "人工智能 +" 行动的深入推进也需要多方主体的协同参与。网易易盾的双重举措,正是在这一背景下对协同治理理念的积极实践:通过参与行业自律倡议,推动形成行业共识;通过国家标准案例示范,促进安全技术普惠。
针对《框架》2.0提及的 “中小企业AI安全能力薄弱” 问题,易盾推出轻量化安全工具——CMA审核智能体,为企业提供“降本、提效、提质” 三位一体的内容安全审核解决方案,破解人工审核成本高、效率低、精度不稳定的行业痛点。 这与框架 2.0 “鼓励中小企业参与治理” 的理念高度契合。

图6:网易易盾CMA审核智能体能力架构
CMA审核智能体通过“机器筛基础、智能体扛主力、人工抓重点” 的模式,大幅减少人工工作量,同时避免因流程冗余导致的效率损耗。安全审核的核心,从来不是 “拼人力”,而是 “守好安全底线”。当CMA审核智能体接过重复、繁琐的审核工作,审核员终于能从 “疲劳战” 中解脱,专注于更有价值的风险研判;企业也能告别 “成本焦虑”,把资源投入到核心业务创新上。
此次网易易盾在国家网络安全宣传周的双重举措,既是对“人工智能+” 战略与《人工智能安全治理框架》2.0 的积极响应,更是企业践行 “科技向善” 责任的体现。
未来,随着 “人工智能+” 与各领域融合的不断深化,易盾将继续以技术创新为核心、以国家标准为指引、以行业协同为路径,为我国全面步入智能经济和智能社会发展新阶段,提供坚实的安全保障。