近日,国家市场监督管理总局、国家标准化管理委员会发布2025年第10号《中华人民共和国国家标准公告》,由全国网络安全标准化技术委员会(简称“TC260”)归口的6项国家标准正式发布。其中,由网易易盾深度参与的国家标准:GB/T 45654-2025《网络安全技术 生成式人工智能服务安全基本要求》正式对外发布,并将于2025年11月1日正式实施。该国标是我国首部针对生成式人工智能服务安全的国家标准,为行业提供了安全治理框架指引。网易易盾作为核心参编单位之一,结合自身在内容安全、AI治理领域的实践经验,深度参与了标准制定,为推动行业规范化发展助力。

图1:国家标准:GB/T 45654-2025《网络安全技术 生成式人工智能服务安全基本要求》
一、国标出台背景:生成式AI的机遇与挑战
当前,生成式人工智能技术不断发展,相关技术已广泛应用在社会生产与生活服务中,在提供便利的同时也带来了大量网络安全的新风险,典型如数据安全、模型安全、内容安全、伦理道德等,是目前业界关注的重点:
○ 安全:训练数据可能包含违法信息、侵犯隐私或知识产权;
○ 模型安全:对抗攻击、后门植入等技术风险威胁系统稳定性;
○ 内容安全:AI可能生成虚假、歧视、暴力等违规内容;
○ 伦理道德:未成年人保护、舆论引导等问题亟待规范。
在此背景下,国标GB/T 45654-2025《网络安全技术 生成式人工智能服务安全基本要求》应运而生,该标准规定了生成式人工智能服务在训练数据安全、模型安全、安全措施等方面的要求,适用于服务提供者开展生成式人工智能服务相关活动,也为相关主管部门以及第三方评估机构提供了参考。
值得注意的是,该国标为系列标准,重点关注数据标注安全时,本文件可与国标GB/T 45674《网络安全技术 生成式人工智能数据标注安全规范》结合使用;重点关注预训练和优化训练数据安全时,本文件可与国标GB/T 45652《网络安全技术 生成式人工智能预训练和优化训练数据安全规范》结合使用。
二、核心内容解读:国标如何规范生成式AI?
该国标从训练数据安全、模型安全、安全措施三个方面,规范生成式人工智能服务相关要求。
1. 训练数据安全:从源头把控AI“投喂”内容
生成式AI的“智商”取决于训练数据,国标对数据安全提出严格要求,从数据来源安全、数据内容管理、数据标注安全三个方面做了规范指引:
(1)数据来源安全
○ 数据来源选择
■ 禁止使用违法不良信息占比超5%的数据源(如涉政、暴恐、色情等);
■ 已采数据应进行随机抽样核验,违法不良信息超5%的不应用作训练数据;
○ 不同来源训练数据搭配
■ 提高训练数据来源多样性,不同语言(如中英文)、不同类型(如文本图片音频)均应有多个数据来源;
■ 如需使用境外来源训练数据,应合理搭配境内外来源训练数据;
○ 训练数据来源管理及追溯
■ 使用开源训练数据时,应遵循该数据来源的开源许可协议或取得相关授权文件;
■ 使用自采训练数据时,应具有采集记录,不应采集他人已明确不可采集的数据;
■ 使用商业训练数据时,应有具备法律效力的交易合同、合作协议等;
■ 将使用者输入信息用作训练数据时,应具有使用者授权记录;

图2:国标GB/T 45654-2025附录A:训练数据及生成内容的主要安全风险
网易易盾实践:依据国标附录,训练数据及生成内容的主要安全风险包含五大类31小类,分别是:违反社会主义核心价值观的内容、包含歧视性内容、商业违法违规、侵犯他人合法权益、无法满足特定服务类型的安全需求。网易易盾依靠多年技术积累与沉淀,拥有百万级的安全语料库,包含网易集团自有语料、易盾业务相关黑样本库及变种、有授权的开源语料、海外数据采集清洗等,与国标所描述的五大类31小类完美匹配,先后有多家大模型厂家采购了易盾的安全语料服务。
(2)数据内容管理
○ 训练数据内容过滤
在训练之前,应对所有类型数据进行过滤,方法包括但不限于关键词、分类模型、人工抽检等,以便去除违法不良信息。
○ 知识产权保护
■ 需制定完善的知识产权管理策略,明确责任人和管理流程
■ 严格防范侵犯他人知识产权的行为
■ 建立畅通的知识产权投诉渠道,并根据政策变化及时更新管理策略
■ 在用户协议中充分告知生成内容可能涉及的知识产权风险
○ 个人信息保护
■ 使用含个人信息的数据前,必须取得个人同意或符合法定情形
■ 涉及敏感个人信息时,需取得个人单独同意或符合特殊法定要求
(3)数据标注安全
○ 标注人员管理
■ 必须对标注人员进行系统化安全培训,内容涵盖法律法规、标注规范等
■ 实施严格的考核上岗制度,并建立定期复训机制
■ 标注流程必须实现执行与审核岗位分离,确保监督有效性
○ 标注规则
■ 标注规则应至少包括标注目标、数据格式、标注方法、质量指标等内容
■ 分别制定功能性标注和安全性标注的详细规则
■ 功能性标注应确保数据的真实性、准确性、客观性和多样性
■ 安全性标注规则应全面覆盖标准附录A列出的31类安全风险
○ 标注内容准确性
■ 功能性标注数据需按批次进行人工抽检,不合格批次需重新标注或作废
■ 安全性标注数据必须逐条经过审核人员确认
○ 标注数据隔离存储
■ 服务提供者宜对安全性标注数据进行隔离存储
网易易盾实践:在数据标注与清洗环节,易盾采用“AI+人工”双审核机制,结合自研的敏感词库与内容风控模型,确保训练数据合法合规。

图3:网易易盾内容标签标注与人工审核服务
2. 模型安全:让AI“可控、可信、可靠”
国标要求服务提供者从训练到推理全流程保障模型安全:
(1)模型训练安全
○ 建立安全风险测试题库,优化模型生成内容的安全性,在模型优化、更新或升级后需复测;
○ 对开发框架和代码等进行安全审计,关注开源框架安全以及漏洞相关问题;
○ 定期检测模型后门,发现风险及时处置,如模型微调、遗忘学习等,防范对抗攻击;
(2)模型输出安全
○ 模型生成内容合格率应≥90%(抽样测试不包含附录 A 所列出31种安全风险的样本);
○ 应采取技术措施提高生成内容的准确性和可靠性,如识别使用者输入意图,提高生成内容与科学常识及主流认知相符合的程度,提高生成内容格式框架的合理性以及有效内容的含量等;
○ 对明显偏激、诱导的违法的问题必须拒答,对其他问题,应均能回答;
○ 图片、视频等生成内容标识方面,需满足国家相关规定以及标准文件要求;
(3)模型监测测评
○ 实时监测恶意输入(如注入攻击、数据窃取、对抗攻击等);
○ 建立常态化监测测评手段,以及模型应急管理措施,及时处理发现的安全问题,并优化模型;
(4)模型更新、升级安全
○ 应制定在模型更新、升级时的安全管理策略
○ 形成管理机制,在模型重要更新、升级后,再次自行组织安全评估
网易易盾实践:基于多年AI风控经验,易盾构建了AIGC内容安全检测系统,可精准识别AI生成的违规文本、图片、视频,并支持实时拦截与溯源。
图4:网易易盾大模型内容安全方案架构
3. 安全措施要求:责任明晰,透明可控
(1)服务适用人群、场合及用途
○ 需全面评估各应用领域的必要性、适用性和安全性
○ 关键领域(如公共安全、医疗、金融等)需实施增强型安全保护措施
○ 服务适用未成年人的,必须提供监护人管控功能(如时长限制),并禁止向未成年人提供不匹配的付费服务,需积极推送适合未成年人的内容
○ 不适用未成年人的服务,需设置有效管理或技术措施防止其使用
(2)服务透明度
○ 以交互界面提供服务的,需在显著位置公示:适用人群、使用场景、用途信息等
○ 以交互界面提供服务的,需在用户便于查看的位置公开:服务局限性说明、模型算法基本信息、个人信息收集使用情况
○ 以可编程接口形式提供服务的,需在文档中完整披露上述信息
(3)收集使用者输入信息用于训练
○ 必须提供便捷的数据收集关闭功能(如为使用者提供选项,最多4次点击可达)
○ 需明确告知用户数据收集状态及关闭方式
(4)接受公众或使用者投诉举报
○ 需设立多渠道投诉入口(如电话、邮件、短信、交互窗口等)
○ 制定明确的处理规则和时限要求
(5)向使用者提供服务
○ 采用关键词、分类模型等方式实施用户输入检测,公示并执行违规处置的规则(如多次违规后暂停服务等)
○ 配备足量监看人员,持续优化内容质量
(6)服务稳定、持续
○ 建立数据、模型等关键资产的备份机制,制定完善的恢复策略,确保业务连续性
(7)端侧模型服务
○ 首次使用需官方激活,并在联网时更新安全策略
○ 终端需内置安全模块,对生成的内容做安全审核,收集并留存安全日志,设备联网时可上传或导出
○ 应具备模型更新机制,及时修复安全漏洞(推送补丁),重大更新需多次提醒未升级用户

图5:网易易盾大模型内容安全体系建设
三、为什么是网易易盾,能参加国标研制?
网易易盾成立近九年,依托人工智能安全研究,积累了大量产品实践经验,包括行业标准等顶层设计。
近日,由中国信息通信研究院启动的2025年第一批可信AI(安全)-大模型安全风险防范能力评估工作中,网易易盾“商和大模型-V1.0”顺利通过「大模型安全风险防范能力 第3部分:内容安全的评估」,获评优秀防护级(最高级),成为数字内容风控行业里首位通过该评测的服务商,彰显了行业领先地位与硬核实力!

图6:网易易盾安全大模型评测证书及报告首页图
多项产品评测和荣誉奖项都证明,易盾作为参编该项国标的首批数字内容风控服务商,绝非运气偶然,靠的是网易二十余年的先进技术沉淀和一线实践经验。未来,在AI安全的征程上,易盾将继续奉行“独行虽快,众行方远”的策略,与所有关注AI安全的伙伴们并肩同行,为AI时代扎紧防护网,让创新始终秉持敬畏之心。