中文站

网易易盾受邀参与中国信通院政务大模型安全标准制定,共建国家级安全护栏体系

在生成式 AI 全面加速的当下,大模型已逐步成为政务数字化升级的重要支撑能力。随着各地政务服务智能化、公共服务在线化、城市治理精细化需求不断提升,大模型在政务领域的应用场景持续扩展。从咨询问答、政策解读,到业务办理辅助、流程智能协同,政务大模型正从试点探索走向规模化落地。然而,模型幻觉、数据泄露、越狱攻击、提示注入、权限滥用等安全风险也同步上升,使“大模型安全”从技术议题上升为国家治理能力现代化的基础性工程。

为进一步凝练政务大模型安全领域的关键问题,推动安全体系规范化建设,由中国信息通信研究院主办的《政务大模型安全系列标准研讨会》于近日成功召开。会议汇聚来自政企单位、科研机构与头部科技企业的多位权威专家,包括来自南京大数据集团、中国电信、浪潮云、京东科技、百度、阿里云等单位的政务大模型安全团队技术代表,共同分享前沿实践经验,探讨政务大模型在安全与合规前提下的高质量发展路径。

网易易盾作为深耕内容安全、业务安全与 AI 风控的专业技术提供方受邀参会,并围绕政务大模型全生命周期安全体系建设提出专业建议。

会上,网易易盾安全专家苗晴晴基于长期在内容治理与智能风控体系上的技术沉淀,从事前、事中、事后三个阶段分享了政务大模型的安全实践经验。

在事前阶段,重点是做好源头风险治理。政务大模型在上线前需要从数据、模型、软硬件环境、服务应用等多个层面开展系统性评估,包括模型选型、预训练数据管理、国产化软硬件适配、供应链安全审查、安全部署方式评估等内容。在这一环节中,易盾结合数据清洗与标注、模型安全性评测、场景风险诊断、安全策略配置等实践能力,为政务机构构建可控可信的基础环境,降低潜在风险。

在事中阶段,重点在于强化服务过程的风险监测与实时处置。政务场景对回答质量有更高要求,模型输出不仅不能违规,更需要准确、稳定,否则会影响政府公信力。易盾基于模型内生安全能力外层围栏防护机制,提供提示词注入识别、越狱攻击阻断、语义级风险分析、内容分级管理等能力,实现风险的动态化、实时化、精细化管理。同时也建议在安全标准体系中加入“输出准确率”等关键指标,为政务知识问答与政策解读等核心场景提供更明确的质量保障。

在事后阶段,重点在于安全体系的持续优化与风险溯源。政务大模型需要建立起从反馈收集、问题分析、模型与策略更新到审计与质检的全链路治理能力,以确保系统在长期运行中的稳定性和可控性。易盾可通过用户反馈分析、内容质检、违规特征识别、舆情监测等安全能力,支持政务模型持续更新优化,构建闭环的安全运行体系。

随着政务大模型从试点走向深度应用,安全能力已不再是辅助条件,而是数字政府能否安全运行、社会服务能否稳定提供的“第一原则”。大模型的安全治理水平,将直接影响政府的数字化服务能力,也将成为社会数字信任体系的重要组成部分。

网易易盾表示,参与政务大模型安全标准建设,不仅是技术投入,更是一项关乎公共利益的长期责任。未来,易盾将持续推动安全技术与治理体系的协同创新,与行业伙伴共同构建更加透明、可信、可持续的政务 AI 安全底座,为数字政府的发展提供扎实的安全支撑,让技术创新真正服务于社会福祉与国家治理能力现代化。