近日,沙丘智库正式对外发布《2025年中国 “大模型+安全” 主流厂商全景图》,网易易盾凭借在大模型安全领域的全栈布局与卓越实践,成功入选大模型安全评估、大模型安全防护、大模型赋能内容安全三大核心领域主流厂商。

今年9月的网络安全宣传周上,监管部门与各企业代表着重讨论人工智能发展及安全,并更新发布了《人工智能安全治理框架》2.0 版,为规范人工智能发展,推动网络生态健康与技术良性进步安全发展指明了新方向。
同期,多部门联合发布的《人工智能生成合成内容标识办法》在9月1日正式施行。该办法明确要求服务提供者对生成合成内容添加显式标识,并在文件元数据中添加隐式标识,旨在从源头为 AI 合成信息建立规范准则,引导行业有序发展。

图1:近日网信部门集中查处违规互联网应用程序
随着 “人工智能+” 与各领域融合的不断深化,安全性是不可忽视的。无论是大模型企业,还是应用平台,在兼顾技术创新发展的同时,更需要以国家标准为指引、以行业协同为路径,推动自身企业良性发展,助力我国全面步入智能经济和智能社会发展新阶段。
本次《 “大模型+安全” 全景图》发布,网易易盾旗下三大核心产品同步亮相全景图,成为覆盖 “大模型安全治理+大模型赋能安全” 双赛道的标杆企业。此次入选,既是对网易易盾在大模型安全领域技术创新的肯定,更是对其 “让科技更安全” 核心使命的最佳印证。
大模型评测平台:大模型的 “合规体检官”
在 “大模型安全评估” 细分市场,网易易盾大模型评测平台凭借全链路合规评估能力强势入选。该平台基于数字内容风控领域的深厚技术积淀与AIGC头部模型厂商的实践经验,专为企业打造从模型评测、风险预警到智能优化的全流程解决方案。

核心功能上,平台首创 “三级分类体系”,完美适配大模型备案要求的五大类31小类标准,同时支持企业自定义安全标签,满足个性化合规需求;内置行业领先的风险维度识别模型,可实现全类敏感问题精准检索,搭配多模态题库管理(图像、视频通过线下实现),覆盖文本全场景测试需求。操作层面提供可视化工作台,支持模型注册 - 任务编排 - 结果分析全流程管理,兼容定期巡检与突发事件专项测试双模式,最终生成包含合规得分卡的多维度评测报告,为企业大模型合规上线与安全运营提供科学依据。
大模型安全围栏:大模型的 “全链路防护盾”
针对 “大模型安全防护” 细分市场,网易易盾大模型安全围栏以 “内生安全+围栏防护” 双防线设计入选,聚焦大模型从训练、上线到运营的全链路安全治理,有效规避违规诱导、内容不合规等多重风险。

产品核心优势集中在三大维度:一是多模态双向检测,可实现文本、图片等多模态内容防护,输入阶段拦截底线红线、违法违规、歧视偏见类内容及上下文套话、指令攻击,输出阶段通过流式切片检测逐段核查生成内容,及时处置违规信息;二是风险分级精准管控,将风险划分为四级,实现 “无风险放行、涉政舆情正向引导、高敏内容安全代答、违法违规直接拦截” 的精细化管理,达成 “应拒必拒、应答尽答”;三是安全代答能力,针对政治、法律、金融等零容忍高敏感场景,依托千万级知识库与事实校验能力,输出权威合规内容,平衡用户信息需求与安全风险。目前,该产品已服务华泰证券、工商银行等重要客户,为金融、政务等关键领域的大模型应用筑牢安全屏障。
大模型生成识别:合规落地的 “智能钥匙”
在大模型赋能内容安全领域,AI 生成内容的显隐式标识、可追溯性成为企业合规的硬性要求。网易易盾推出的“AI 生成识别” 能力,以双检测模型构建全链路合规解决方案,破解企业合规焦虑。

该方案采用了 “标识识别 + AI生成检测” 双模型检测体系,适配图片、文档、音视频等多形态内容,通过OCR识别、元数据解析等技术确保标识检测合规。同时,在标识识别方面,采用了 “显性标识识别 + 隐性标识识别” 双通道,输出三级判定结果并提取溯源信息,满足 “可识别、可追溯” 监管要求。支持多接口形式无缝对接企业现有系统,既可为生成工具平台提供合规检测,也能助力传播平台履行监管责任,实现 “生成即合规、传播全可控”,为企业高效落地合规要求提供便捷路径。
未来,网易易盾将继续依托技术沉淀与自身的场景实践经验,持续迭代大模型安全相关产品与解决方案,聚焦企业在大模型应用中的合规、安全、效率痛点,以更先进的技术、更完善的服务,助力更多行业客户实现大模型安全、合规、高效落地,与行业伙伴共同构建健康有序的大模型安全生态。