中文站

国内首个!网易易盾参编国标《生成式人工智能服务安全基本要求》,领先助力行业健康发展

近日,国家市场监督管理总局、国家标准化管理委员会发布2025年第10号《中华人民共和国国家标准公告》,由全国网络安全标准化技术委员会(简称“TC260”)归口的6项国家标准正式发布。其中,由网易易盾深度参与的国家标准:GB/T 45654-2025《网络安全技术 生成式人工智能服务安全基本要求》正式对外发布,并将于2025年11月1日正式实施。该国标是我国首部针对生成式人工智能服务安全的国家标准,为行业提供了安全治理框架指引。网易易盾作为核心参编单位之一,结合自身在内容安全、AI治理领域的实践经验,深度参与了标准制定,为推动行业规范化发展助力

图1:国家标准:GB/T 45654-2025《网络安全技术 生成式人工智能服务安全基本要求》

一、国标出台背景:生成式AI的机遇与挑战

当前,生成式人工智能技术不断发展,相关技术已广泛应用在社会生产与生活服务中,在提供便利的同时也带来了大量网络安全的新风险,典型如数据安全、模型安全、内容安全、伦理道德等,是目前业界关注的重点:

 ○ 安全:训练数据可能包含违法信息、侵犯隐私或知识产权;

 ○ 模型安全:对抗攻击、后门植入等技术风险威胁系统稳定性;

 ○ 内容安全:AI可能生成虚假、歧视、暴力等违规内容;

 ○ 伦理道德:未成年人保护、舆论引导等问题亟待规范。

在此背景下,国标GB/T 45654-2025《网络安全技术 生成式人工智能服务安全基本要求》应运而生,该标准规定了生成式人工智能服务在训练数据安全、模型安全、安全措施等方面的要求,适用于服务提供者开展生成式人工智能服务相关活动,也为相关主管部门以及第三方评估机构提供了参考

值得注意的是,该国标为系列标准,重点关注数据标注安全时,本文件可与国标GB/T 45674《网络安全技术 生成式人工智能数据标注安全规范》结合使用;重点关注预训练和优化训练数据安全时,本文件可与国标GB/T 45652《网络安全技术 生成式人工智能预训练和优化训练数据安全规范》结合使用。

二、核心内容解读:国标如何规范生成式AI?

该国标从训练数据安全、模型安全、安全措施三个方面,规范生成式人工智能服务相关要求。

1. 训练数据安全:从源头把控AI“投喂”内容

生成式AI的“智商”取决于训练数据,国标对数据安全提出严格要求,从数据来源安全、数据内容管理、数据标注安全三个方面做了规范指引:

(1)数据来源安全

 ○ 数据来源选择

 ■ 禁止使用违法不良信息占比超5%的数据源(如涉政、暴恐、色情等);

 ■ 已采数据应进行随机抽样核验,违法不良信息超5%的不应用作训练数据;

 ○ 不同来源训练数据搭配

 ■ 提高训练数据来源多样性,不同语言(如中英文)、不同类型(如文本图片音频)均应有多个数据来源;

 ■ 如需使用境外来源训练数据,应合理搭配境内外来源训练数据;

 ○ 训练数据来源管理及追溯

 ■ 使用开源训练数据时,应遵循该数据来源的开源许可协议或取得相关授权文件;

 ■ 使用自采训练数据时,应具有采集记录,不应采集他人已明确不可采集的数据;

 ■ 使用商业训练数据时,应有具备法律效力的交易合同、合作协议等;

 ■ 将使用者输入信息用作训练数据时,应具有使用者授权记录;

图2:国标GB/T 45654-2025附录A:训练数据及生成内容的主要安全风险

网易易盾实践:依据国标附录,训练数据及生成内容的主要安全风险包含五大类31小类,分别是:违反社会主义核心价值观的内容、包含歧视性内容、商业违法违规、侵犯他人合法权益、无法满足特定服务类型的安全需求。网易易盾依靠多年技术积累与沉淀,拥有百万级的安全语料库,包含网易集团自有语料、易盾业务相关黑样本库及变种、有授权的开源语料、海外数据采集清洗等,与国标所描述的五大类31小类完美匹配,先后有多家大模型厂家采购了易盾的安全语料服务

(2)数据内容管理

 ○ 训练数据内容过滤

在训练之前,应对所有类型数据进行过滤,方法包括但不限于关键词、分类模型、人工抽检等,以便去除违法不良信息。

 ○ 知识产权保护

 ■ 需制定完善的知识产权管理策略,明确责任人和管理流程

 ■ 严格防范侵犯他人知识产权的行为

 ■ 建立畅通的知识产权投诉渠道,并根据政策变化及时更新管理策略

 ■ 在用户协议中充分告知生成内容可能涉及的知识产权风险

 ○ 个人信息保护

 ■ 使用含个人信息的数据前,必须取得个人同意或符合法定情形

 ■ 涉及敏感个人信息时,需取得个人单独同意或符合特殊法定要求

(3)数据标注安全

 ○ 标注人员管理

 ■ 必须对标注人员进行系统化安全培训,内容涵盖法律法规、标注规范等

 ■ 实施严格的考核上岗制度,并建立定期复训机制

 ■ 标注流程必须实现执行与审核岗位分离,确保监督有效性

 ○ 标注规则

 ■ 标注规则应至少包括标注目标、数据格式、标注方法、质量指标等内容

 ■ 分别制定功能性标注和安全性标注的详细规则

 ■ 功能性标注应确保数据的真实性、准确性、客观性和多样性

 ■ 安全性标注规则应全面覆盖标准附录A列出的31类安全风险

 ○ 标注内容准确性

 ■ 功能性标注数据需按批次进行人工抽检,不合格批次需重新标注或作废

 ■ 安全性标注数据必须逐条经过审核人员确认

 ○ 标注数据隔离存储

 ■ 服务提供者宜对安全性标注数据进行隔离存储

网易易盾实践:在数据标注与清洗环节,易盾采用“AI+人工”双审核机制,结合自研的敏感词库与内容风控模型,确保训练数据合法合规。

图3:网易易盾内容标签标注与人工审核服务

2. 模型安全:让AI“可控、可信、可靠”

国标要求服务提供者从训练到推理全流程保障模型安全:

(1)模型训练安全

 ○ 建立安全风险测试题库,优化模型生成内容的安全性,在模型优化、更新或升级后需复测;

 ○ 对开发框架和代码等进行安全审计,关注开源框架安全以及漏洞相关问题;

 ○ 定期检测模型后门,发现风险及时处置,如模型微调、遗忘学习等,防范对抗攻击;

(2)模型输出安全

 ○ 模型生成内容合格率应≥90%(抽样测试不包含附录 A 所列出31种安全风险的样本)

 ○ 应采取技术措施提高生成内容的准确性和可靠性,如识别使用者输入意图,提高生成内容与科学常识及主流认知相符合的程度,提高生成内容格式框架的合理性以及有效内容的含量等;

 ○ 对明显偏激、诱导的违法的问题必须拒答,对其他问题,应均能回答;

 ○ 图片、视频等生成内容标识方面,需满足国家相关规定以及标准文件要求;

(3)模型监测测评

 ○ 实时监测恶意输入(如注入攻击、数据窃取、对抗攻击等);

 ○ 建立常态化监测测评手段,以及模型应急管理措施,及时处理发现的安全问题,并优化模型;

(4)模型更新、升级安全

 ○ 应制定在模型更新、升级时的安全管理策略

 ○ 形成管理机制,在模型重要更新、升级后,再次自行组织安全评估

网易易盾实践:基于多年AI风控经验,易盾构建了AIGC内容安全检测系统,可精准识别AI生成的违规文本、图片、视频,并支持实时拦截与溯源。

图4:网易易盾大模型内容安全方案架构

3. 安全措施要求:责任明晰,透明可控

(1)服务适用人群、场合及用途

 ○ 需全面评估各应用领域的必要性、适用性和安全性

 ○ 关键领域(如公共安全、医疗、金融等)需实施增强型安全保护措施

 ○ 服务适用未成年人的,必须提供监护人管控功能(如时长限制),并禁止向未成年人提供不匹配的付费服务,需积极推送适合未成年人的内容

 ○ 不适用未成年人的服务,需设置有效管理或技术措施防止其使用

(2)服务透明度

 ○ 以交互界面提供服务的,需在显著位置公示:适用人群、使用场景、用途信息等

 ○ 以交互界面提供服务的,需在用户便于查看的位置公开:服务局限性说明、模型算法基本信息、个人信息收集使用情况

 ○ 以可编程接口形式提供服务的,需在文档中完整披露上述信息

(3)收集使用者输入信息用于训练

 ○ 必须提供便捷的数据收集关闭功能(如为使用者提供选项,最多4次点击可达)

 ○ 需明确告知用户数据收集状态及关闭方式

(4)接受公众或使用者投诉举报

 ○ 需设立多渠道投诉入口(如电话、邮件、短信、交互窗口等)

 ○ 制定明确的处理规则和时限要求

(5)向使用者提供服务

 ○ 采用关键词、分类模型等方式实施用户输入检测,公示并执行违规处置的规则(如多次违规后暂停服务等)

 ○ 配备足量监看人员,持续优化内容质量

(6)服务稳定、持续

 ○ 建立数据、模型等关键资产的备份机制,制定完善的恢复策略,确保业务连续性

(7)端侧模型服务

 ○ 首次使用需官方激活,并在联网时更新安全策略

 ○ 终端需内置安全模块,对生成的内容做安全审核,收集并留存安全日志,设备联网时可上传或导出

 ○ 应具备模型更新机制,及时修复安全漏洞(推送补丁),重大更新需多次提醒未升级用户

图5:网易易盾大模型内容安全体系建设

三、为什么是网易易盾,能参加国标研制?

网易易盾成立近九年,依托人工智能安全研究,积累了大量产品实践经验,包括行业标准等顶层设计。

近日,由中国信息通信研究院启动的2025年第一批可信AI(安全)-大模型安全风险防范能力评估工作中,网易易盾“商和大模型-V1.0”顺利通过「大模型安全风险防范能力 第3部分:内容安全的评估」,获评优秀防护级(最高级),成为数字内容风控行业里首位通过该评测的服务商,彰显了行业领先地位与硬核实力!

图6:网易易盾安全大模型评测证书及报告首页图

多项产品评测和荣誉奖项都证明,易盾作为参编该项国标的首批数字内容风控服务商,绝非运气偶然,靠的是网易二十余年的先进技术沉淀和一线实践经验。未来,在AI安全的征程上,易盾将继续奉行“独行虽快,众行方远”的策略,与所有关注AI安全的伙伴们并肩同行,为AI时代扎紧防护网,让创新始终秉持敬畏之心