中文站

给“科学怪人”情节贴上休止符,易盾如何防止 AI 变坏?

围绕人脸相关的“变脸”、“换脸”的应用软件正呈现出蓬勃旺盛的生命力。人脸识别技术是信息认证的重要组成部分,已被广泛应用于社交娱乐、零售、金融支付、交通出行等多个领域,在为公众的工作生活提供种种便利的同时,也带来了仿冒攻击、数据泄露等安全问题。

2021 年 4 月,中国信通院倡议发起了"可信人脸应用守护计划"(下称"护脸计划"),希望通过标准制定、测试评估、行业自律等手段,增进行业和社会共识,促进产业健康发展。

“护脸计划”成员单位

随着科学技术的不断发展,“护脸计划”正当时。网易易盾作为“护脸计划”成员单位企业,在标准制定、评估测试、生态建设等环节持续合作,共筑人脸应用健康生态。

2021年 11 月,工信部信通院正式公布了"护脸计划"专家委员会的成员名单。凭借在人脸安全方面的技术积累和实践经验,网易易盾人工智能实验室负责人李雨珂受邀加入护脸计划专家委员会。

自“护脸计划”计划发起以来,网易易盾积极响应,经历多轮线上线下研讨会的反复推敲和修订,凝聚行业共识的《人脸信息处理合规操作指南》、《金融APP 人脸识别线上身份认证安全能力要求》相继于2022 年 1 月 和 4 月出炉,相关安全能力测评有序推进。

4 月 7 日,“护脸计划”在线上成功召开了 2022 年度第一次全体成员大会,130 余位成员单位代表线上参会。杭州网易智企科技有限公司与易盾人工智能(AI)实验室负责人李雨珂分别被评为 2021 年度“护脸计划”突出贡献单位及个人,与腾讯云计算、蚂蚁科技、商汤、京东科技、百度网讯、旷视科技等成员单位一同上榜。



来源:可信人脸应用守护计划

据中国信息通信研究院最新消息显示,目前加入了本次“护脸”计划的成员单位已达到 106 家,囊括中国电信、字节跳动、腾讯云、华为等众多行业龙头企业。中国信通院认为,通过标准制定、测试评估、行业自律等手段,或可妥善解决用户隐私安全等问题,为人脸识别技术和应用“正名”。

网易易盾作为“护脸计划”成员单位,除了在人脸识别技术的深耕之外,在用户数据隐私安全保护等方面的工作有着成熟经验和突出成绩,致力于让 AI 变得更加值得信赖。

AI 更可信的探索

在数字内容风控服务中,涵盖了广泛的业务与场景,包括社交娱乐、游戏、金融、在线阅读、教育和消费等。这些看似完全不同的行业有着相似的共同点:他们都面临着网络诈骗、侵犯公民个人信息、违规违法内容等风险,许多相关企业正积极探索利用 AI 方案解决安全风险问题。

然而,在 AI 大规模的落地应用中出现了许多"信任危机"问题,无论是普通用户还是权威学者都对人工智能算法产生了"可信"的担忧,可信 AI 也逐渐成为人工智能领域的热门话题之一。AI 参与审核,我们该怎么样信任它?

从普通用户的角度来看,AI 是一个"黑盒",是否可信似乎"无从谈起"。但从 AI 算法工程师的角度来看,其实"可信 AI"是一个追求的目标,这个目标渗透在 AI 系统的每一个环节。易盾认为,一个可信的 AI 算法系统必须具备透明度、公平性与稳健性。

一、数据与标准,促进 AI 的公平性

没有了数据,AI 算法就成了“无源之水,无本之木”。如果训练数据是 AI 的“食物”,那么数据定义标准就是AI 的“食材选用标准”。因此,数据和标准对于 AI 系统而言,是应用可信的先决条件,这促使易盾从多个角度对数据和标准进行充分思考,偏见消除、歧义消除、局限性消除等数据保障工作在算法搭建初期极为关键。

1、数据歧视消除:从数据固有特性出发均匀采样、构建完整异构数据集,对数据集进行周期性检查,保证数据的高质量和公平性。易盾的人脸识别算法模型会从人种、地区、性别等人脸数据的固有特性出发,进行均匀采集和采样。

2、标准偏见消除:不同岗位、性别、背景经历的人员同时参与到标注制定的讨论,对于“物化女性”、“涉黄程度”等衡量标准进行量化制定。

3、倾向性消除(覆盖面):标准覆盖不常见的边缘案例,对于低频数据类型有确定性较强的说明。例如,易盾的人脸属性模型会考虑不同地域和人种的情况。

二、算法与训练,提高 AI 的透明度

深度学习算法在准确率统计指标上可能击败人类,但有可能在一些简单的案例上犯错,且由于 AI 算法模型是一个“黑盒”,判断结果常常没有强有力的依据。实际上,有多种技术上的方法可以分析、提升模型的可解释性。例如,易盾在算法模型训练过程中通过“可视化机制评估”和“解释模型”的中间状态,尽可能拉近模型和人之间的感知差距,使得模型输出可接受的结果。

1、鲁棒性

深度学习算法对于场景变换较为敏感,在社交类场景下有较好效果的算法模型,可能在游戏场景下效果严重下降。以此为前提,研究在开放场景有稳定表现的算法更为重要。

2、公平性

从预处理、模型训练、后处理这三个方面出发,提高模型的公平性。预处理方面,通过重采样等方式对数据进行清洗、从而降低数据中存在的偏差。模型训练方面,考虑模型公平性要求,增加损失项或者正则项来保证提升模型的公平性。评价指标方面,考虑决策偏差的特点,调整后处理方式减轻模型的决策偏差。

三、服务与策略,增强 AI 的稳健性

在易盾,AI 作为内容信息、人员身份判断的重要工具,必须确保 AI 作为决策环节是透明、公平、可理解的,只有这样用户才能安心地看它发挥出高效的本领。

深度学习算法隐藏着许多弱点,在应用过程中面临潜在的“对抗攻击”,即黑产或恶意用户对数据、算法、框架等素材进行一定程度修改,有可能实现绕过算法模型的拦截。以此为前提,团队致力于研究有一定对抗能力的算法,保护训练数据不受侵害。

1、柔性化服务

对于数据由易到难进行层层过滤,不同程度的风险内容对应不同等级的应对策略,且内容安全审核服务对于用户的侵入较低。

2、立体化服务

结合关联图网络、行为模型、用户属性等其他技术,进行全方位诊断和分析,提升整体服务的可信程度。即便单一的算法遭到攻击,其他技术也能及时补上,令结果更加稳定可靠。

四、结尾

对于平台企业来说,数字内容风控是一件涉及审核和判断的琐事,使组织面临重大风险的同时,增加了业务成本。如今,AI 技术正在保障企业安全的工作中发挥着重要作用,有效减少了风控决策行动所需的工作量,解放人力,让他们专注于更有价值的活动。

成功的 AI 部署的每一小步,都将帮助人们建立对 AI 的信任,都会促进一个良性循环。一直以来,网易易盾从数据、算法、模型、解决方案、部署等环节出发,不断追求高性能的 AI 算法,也立足于 AI 系统的每个环节,不断追求 AI 系统的鲁棒性、泛化性、可解释性、公平性、稳定性、隐私保护等效果,构建更加立体、全面、可信的 AI 系统。