AI内容风控效果指标标准，正式共享！

【易盾动态】2024-03-01

分享到

从PC互联网时代到移动互联网，再到未来数字世界，构建互联网的基础是各种各样的数字内容。

从广义上说，用户解锁手机的一瞬间，就开始与数字内容发生交互。

随着互联网技术的飞速发展，数字内容的传播速度和范围达到了前所未有的水平。社交媒体、新闻平台、在线教育、电子商务等各个领域，都在以惊人的速度产生和分享着海量的信息。然而，这一现象的另一面是网络空间中有害内容的泛滥，包括虚假信息、网络欺诈、恶意攻击、色情暴力等，这些都对用户的网络安全和心理健康构成了严重威胁。

在这样的市场环境下，内容风控成为了互联网企业不可忽视的重要议题。随着用户对网络环境质量要求的提高，以及政府对网络内容监管的加强，行业对于高效、准确的内容风控解决方案的需求日益迫切。这不仅关系到企业的品牌形象和用户信任，也直接影响到企业的合规性和市场竞争力。

因此，我们看到，只要是开展数字化业务的企业，随着业务的数字化进程，都开始对数字内容风控有了不同程度的需求。这其中最明显的便是娱乐社交、游戏、电商、在线教育、AIGC、传媒、新零售、金融、数字阅读等等行业。

同时，随着数字化的全面加速，无论是监管还是自身发展需要，都对数字内容风控提出了更高的要求。在这样的背景之下，网易易盾作为数字内容风控领军者，经过7年多的深耕发展和商业实践，沉淀了一套先进、完整、系统的实操技术标准。

今天，我们正式发布并与行业共享的是《AI内容风控效果指标标准》。

《AI内容风控效果指标标准》详细阐述了AI内容风控流程，定义了误判、漏判、正确命中等关键术语，并提出了精确度、召回率、命中率等核心效果指标。这些指标不仅有助于量化AI内容风控系统的性能，而且为内容审核提供了明确的优化方向。

在测试方式上，标准提出了非受限测试和受限测试两种方法。非受限测试强调在无业务操作、技术分析、测试成本限制的情况下进行全面测试，而受限测试则针对实际业务中可能遇到的各种限制条件，如数据量有限、频繁黑产对抗、标准主观性、数据不平衡等问题，提供了相应的测试策略。

网易易盾AI实验室AI算法专家李雨珂，介绍该标准经长期实践检验，具有以下特点与效用：

（1）基于海量动态随机数据的测试标准，而不是基于有限的静态测试集，海量随机数据更好地表征了产业应用中的数据分布，更好的包含了多样的数据类型与对抗干扰，更好的反映了真实产业场景的多样性与动态性，更好地规避了AI模型在静态测试集上过拟合等问题，更加贴合产业应用。

（2）指标更加全面，核心指标的设定除了全局考虑算法效果以外，进一步地考虑了确定与嫌疑、全局与局部、反馈与优化等内容风控行业的现实问题，更加贴合内容风控产业应用。

（3）统计理论，从随机变量参数估计的角度解释内容风控行业AI模型效果评估的统计理论基础，更好的回答了取多少数据、取什么数据、如何质检统计的问题。

（4）考虑了测试过程中的现实问题，对一些受限的场景给予了相应的解决方案，更加贴近现实应用。

“以场景和具体效果为例，除了关注整体统计指标外，我们也专注于持续提升我们的检测服务在困难案例和边缘案例上的表现。在执行检测标准的过程中，我们涵盖了疑难案例数据集和历史业务反馈集，通过对比细分指标，精准分析检测能力在面对难题时的真实效果。因此，在严格执行这一测试标准下，我们能够不断推动检测技术的创新，以持续提升面向特殊疑难案例的识别能力。举例来说，在人物识别任务中，我们创新地采用了基于多特征融合的技术方案，通过人脸信息、体态信息和场景信息等特征的有效融合，可以进行更全面的人物身份识别。这一方案使得人脸召回率提升了10%，精度高达98%。它不仅弥补了在AIGC场景下原有检测能力的短板，而且有效地缓解了在低分辨率模糊情景下人脸识别不准确的问题，这帮助我们成功地减少了因为侧面、小尺寸、遮挡、刻意涂改和AI生成等因素引发的目标人物漏报情况。”李雨珂说。

值得一提的是，《AI内容风控效果指标标准》只是网易易盾今年计划公布的一系列企业标准的开端。易盾致力于与行业共享其在内容风控领域的深厚积累，旨在通过这些标准的发布，促进整个行业的健康发展。这些标准将涵盖内容风控的多个方面，为行业内的企业和机构提供指导和参考，共同提升内容安全的整体水平。

“技术进步，行业共荣”是网易易盾今年决定公布系列企业标准的初心。

分享到

AI内容风控效果指标标准，正式共享！

热门标签

热门文章

社交App交友“防渣”指南

网易易盾接入DeepSeek，数字内容安全“智”理能力全面升级

2024年度游戏安全报告发布：200+亿次风险检测背后的攻防全景

“AI换脸”骗过人脸识别？黑产攻击新手段应如何防御？

网易易盾亮相FCIS 2024网络安全创新大会，分享AIGC内容安全体系建设经验