领航AI安全 | 网易易盾入选大模型安全厂商全景图

【易盾动态】2025-11-28

分享到

近日，沙丘智库正式对外发布《2025年中国 “大模型+安全” 主流厂商全景图》，网易易盾凭借在大模型安全领域的全栈布局与卓越实践，成功入选大模型安全评估、大模型安全防护、大模型赋能内容安全三大核心领域主流厂商。

今年9月的网络安全宣传周上，监管部门与各企业代表着重讨论人工智能发展及安全，并更新发布了《人工智能安全治理框架》2.0 版，为规范人工智能发展，推动网络生态健康与技术良性进步安全发展指明了新方向。

同期，多部门联合发布的《人工智能生成合成内容标识办法》在9月1日正式施行。该办法明确要求服务提供者对生成合成内容添加显式标识，并在文件元数据中添加隐式标识，旨在从源头为 AI 合成信息建立规范准则，引导行业有序发展。

图1：近日网信部门集中查处违规互联网应用程序

随着 “人工智能+” 与各领域融合的不断深化，安全性是不可忽视的。无论是大模型企业，还是应用平台，在兼顾技术创新发展的同时，更需要以国家标准为指引、以行业协同为路径，推动自身企业良性发展，助力我国全面步入智能经济和智能社会发展新阶段。

本次《 “大模型+安全” 全景图》发布，网易易盾旗下三大核心产品同步亮相全景图，成为覆盖 “大模型安全治理+大模型赋能安全” 双赛道的标杆企业。此次入选，既是对网易易盾在大模型安全领域技术创新的肯定，更是对其 “让科技更安全” 核心使命的最佳印证。

大模型评测平台：大模型的 “合规体检官”

在 “大模型安全评估” 细分市场，网易易盾大模型评测平台凭借全链路合规评估能力强势入选。该平台基于数字内容风控领域的深厚技术积淀与AIGC头部模型厂商的实践经验，专为企业打造从模型评测、风险预警到智能优化的全流程解决方案。

核心功能上，平台首创 “三级分类体系”，完美适配大模型备案要求的五大类31小类标准，同时支持企业自定义安全标签，满足个性化合规需求；内置行业领先的风险维度识别模型，可实现全类敏感问题精准检索，搭配多模态题库管理（图像、视频通过线下实现），覆盖文本全场景测试需求。操作层面提供可视化工作台，支持模型注册 - 任务编排 - 结果分析全流程管理，兼容定期巡检与突发事件专项测试双模式，最终生成包含合规得分卡的多维度评测报告，为企业大模型合规上线与安全运营提供科学依据。

大模型安全围栏：大模型的 “全链路防护盾”

针对 “大模型安全防护” 细分市场，网易易盾大模型安全围栏以 “内生安全+围栏防护” 双防线设计入选，聚焦大模型从训练、上线到运营的全链路安全治理，有效规避违规诱导、内容不合规等多重风险。

产品核心优势集中在三大维度：一是多模态双向检测，可实现文本、图片等多模态内容防护，输入阶段拦截底线红线、违法违规、歧视偏见类内容及上下文套话、指令攻击，输出阶段通过流式切片检测逐段核查生成内容，及时处置违规信息；二是风险分级精准管控，将风险划分为四级，实现 “无风险放行、涉政舆情正向引导、高敏内容安全代答、违法违规直接拦截” 的精细化管理，达成 “应拒必拒、应答尽答”；三是安全代答能力，针对政治、法律、金融等零容忍高敏感场景，依托千万级知识库与事实校验能力，输出权威合规内容，平衡用户信息需求与安全风险。目前，该产品已服务华泰证券、工商银行等重要客户，为金融、政务等关键领域的大模型应用筑牢安全屏障。

大模型生成识别：合规落地的 “智能钥匙”

在大模型赋能内容安全领域，AI 生成内容的显隐式标识、可追溯性成为企业合规的硬性要求。网易易盾推出的“AI 生成识别” 能力，以双检测模型构建全链路合规解决方案，破解企业合规焦虑。

该方案采用了 “标识识别 + AI生成检测” 双模型检测体系，适配图片、文档、音视频等多形态内容，通过OCR识别、元数据解析等技术确保标识检测合规。同时，在标识识别方面，采用了 “显性标识识别 + 隐性标识识别” 双通道，输出三级判定结果并提取溯源信息，满足 “可识别、可追溯” 监管要求。支持多接口形式无缝对接企业现有系统，既可为生成工具平台提供合规检测，也能助力传播平台履行监管责任，实现 “生成即合规、传播全可控”，为企业高效落地合规要求提供便捷路径。

未来，网易易盾将继续依托技术沉淀与自身的场景实践经验，持续迭代大模型安全相关产品与解决方案，聚焦企业在大模型应用中的合规、安全、效率痛点，以更先进的技术、更完善的服务，助力更多行业客户实现大模型安全、合规、高效落地，与行业伙伴共同构建健康有序的大模型安全生态。

分享到

领航AI安全 | 网易易盾入选大模型安全厂商全景图

热门标签

热门文章

Unity 引擎高危漏洞 CVE-2025-59489 深度解析：覆盖十年版本，游戏行业迎安全大考

多模态大模型综合防御体系，构筑金融安全 “护城河”

新规将至，网易易盾「AI生成识别」破局合规焦虑

国内首个！网易易盾参编国标《生成式人工智能服务安全基本要求》，领先助力行业健康发展

2024年度游戏安全报告发布：200+亿次风险检测背后的攻防全景