中文站

MCtalk 课程回放 | 五大方向,共同打造一个更好的可信 AI 生态

当前,深度学习技术发展迅速,很多成果也已经应用到了生活的方方面面,走进千家万户的语音助手,超越了人类顶尖棋手的 AlphaGo,还有省心省力的自动驾驶等,给生活带来了巨大的变化。不仅如此,人工智能也已经被列为我国新一轮的国家战略,是我国数字经济发展的重要支柱,也是科技创新的关键领域。

但随着人工智能的快速发展,AI 所存在的问题也随之暴露出来,引发社会风险,亟待解决,例如数据隐私问题、公平性问题、安全风险问题。一系列问题都值得引起我们的重视。

AI 带来的问题正在生活中发生,本次课程将具体说明,AI 可能带来的社会风险有哪些呢?让 AI 更加可信,我们可以落实哪些方向的重点要求?

5 月 24 日,来自网易智企旗下“易盾 AI 实验室”的资深 CV 算法工程师王立春、崔若璇在线上联合开讲,数百位听众进入直播间交流,分享内容如下:

泛化性 AI 在多样场景,效果稳定

为什么模型的泛化性在可信 AI 里面比较重要呢?

我们都知道,AI 模型的决策与判断能力来源于对海量数据的训练和学习过程,但即使再大的模型,我们的训练数据也是有限的,而我们实际使用模型是在无限的真实数据上进行的,所以在有限的数据集上,训练的模型能否涵盖无限真实数据的各个场景就显得尤为重要。这是由于如果模型泛化能力不好,轻则出现数据的漏判,重则会引发严重的事故。

以自动驾驶为例,在国外某自动驾驶巨头的自动驾驶交通事故中,车辆钻进了白色货车里面,调查原因在于自动驾驶系统没有识别出来白色车厢,把白色车厢与天空当成一致了。这么一个小小的误识别,可能就会带来生命的代价,这就是为什么可信 AI 系统对泛化性的要求较高。

那么如何提高模型的泛化性呢?刚刚也提到了,影响泛化性的主要原因在于有限的标注数据无法涵盖所有的场景,使得模型学习存在缺陷。

我们可以从两方面着手,在模型层面,要让模型尽可能学到数据的真实分类边界,不要过拟合。这里我们可以采用增加正则项等方法,在数据层面要增加数据的多样性。一方面,可以利用 augmentation 来构造出不同场景的数据,如不同光照、仿射变换等场景,另一方面,还可采用半监督、自监督等技术,将更多的无标签数据加入到训练集中,提高模型的泛化能力。下面介绍一下易盾在半监督和自监督的尝试。

这里通过“Noisy Student”论文的配图介绍一下半监督的方法,半监督大体思想都差不多,都是首先利用有标签的数据训练教师模型,再利用教师模型对无标签的数据进行打标,接着将有标签和无标签的数据一起训练 student 模型,反复优化迭代,提高数据的利用率。通过半监督训练方法,我们一些任务的训练数据可以从原来的 10 万级别提升到百万级别,进而整体提高模型的泛化能力。右面是我们做的一些半监督的实验,可以看到,无论召回还是精度,都有比较显著提升。

鲁棒性 全面布控,抵抗攻击

模型的鲁棒性主要是指模型对于一些非法输入的稳定性,这里我们要面临的最主要挑战就是算法攻击。

举个例子,左上角的限速标志,被人恶意贴了一个标签,这个标签可能会导致自动驾驶识别错误引发事故。另一边则是通过换脸技术,实现了普京的换脸。而在我们的业务场景中,这种攻击也经常存在,黑灰产为了推广他们的灰色产品,总会想尽办法来生成对抗样本,让安全系统识别不出来,进而绕过系统达到黑灰产的推广目的。

AI 模型常见的攻击方式主要有 4 种,分别是数据投毒攻击、后门攻击、对抗攻击和伪造攻击。前两种呢,主要在训练模型之前,通过在训练数据中插入一些含有攻击特征的图像,进而使得训练的模型对这种图像留有后门,攻击者就可以利用这个后门来做一些非法的事情。后两种主要是模型训练之后,通过伪造对抗样本,或者伪造人脸等达到攻击的效果。

前两种攻击方式不是特别多,因为我们的训练模型一般会做数据的标注以及检查,数据一般是比较可靠的,现实中更为常见的是右边的两种攻击方式,即对抗攻击和伪造攻击。

为了抵御这种对抗攻击和伪造攻击,不让这些黑灰产得逞,提高我们系统的抗攻击能力,易盾设计了多层的防御体系,共同配合来提高整个系统的鲁棒性,包括异常检测、鲁棒增强识别、多模态识别、人工审查等等。

异常检测就是通过技术手段,提前发现攻击数据或者不好的数据,进而做特殊的处理,如清晰度检测、图像篡改检测、深度伪造检测等。鲁棒增强识别,通过增加对抗样本,来增强模型的抗攻击能力。即使这两步都没识别出来,还可以通过多模态识别,从多个维度进行攻击识别,从图像、OCR、NLP 等多角度进行融合识别,以达到识别违禁信息的目的,保证系统识别的准确性,降低系统的误判漏判,减少产品因黑灰产带来的损失。

透明可解释性 更透明、更容易理解、更可信

当前大多数 AI 系统具体在哪些方面还不够透明呢?总结来看有两点,首先是 AI 系统为何具有极高的性能?其次是 AI 系统在做决策时,会引来哪些因素?

这是一个为什么和一个是什么的问题,也是我们为了实现透明可解释这个大目标时,分解的一些小的子目标。

网易易盾在算法迭代中,十分关注透明可解释性,总结下来我们主要通过以下几方面工作来保证和提升整个 AI 系统的可解释性,分别是数据、训练约束、全程监测以及确保可复现。

数据方面,易盾的目标是探索出模型对于训练数据的具体处理机制,具体出发点是借鉴课程学习的理念,对训练数据根据难度进行区分,分析不同训练数据对最终模型结果的影响和作用,从而了解 AI 模型的数据利用机制。

以“数据层面课程学习”为例,在训练一个 AI 系统时,我们对其训练数据、训练阶段都进行划分。训练初期,我们给模型提供简单的训练样例,保证它能学习到一些通用的、基本的能力。在此基础上,训练中期逐步添加稍难的样本,直到训练后期,模型会见到比较难的样本。

模型训练方面,我们添加了和可视化能力相关的约束项,非常直接、显示、直观地提升模型在透明可解释方面的能力。

此外,我们在 AI 系统的整个训练、测试过程中,从多个维度对模型表现进行严密监测,帮助我们理解、掌握模型当前具体情况。在算法的研发、测试阶段,建立了完善的记录和管理机制,详细记录系统各个版本的具体信息,包含数据、系统配置、优化算法、训练超参数等等,目的是为了做到所有流程可复现,从而帮助实现模型结果可解释。

在易盾的反垃圾算法中,广告拦截系统召回的几个案例,大家从四张聚焦效果热力图中可以明显看到,我们的算法模型,不仅能将这些垃圾图像召回,同时模型能重点关注图中的广告区域。模型在做出最终决策的时候,重点考察过重要的、正确的区域,这样它做出的决策我们就认为是更透明、更可信的。

隐私保护 尊重客户隐私、防御恶意窃取

智能时代让大家更加重视隐私保护。关于这个话题,不少人对它的理解只是停留在一个比较模糊的概念,下面依然通过两个问题对其有进一步了解。

1.首先,什么算是数据隐私?

在传统意义上,数据隐私经常指的是原始数据本身,包含了图片、视频、文本、语音等各种数据形式,但对于 AI 算法来说,数据隐私不仅包含了原始数据,还包含在模型训练过程中的梯度、特征等信息。

2. 其次,当前的隐私保护现状是怎样呢?

一方面,随着 AI 系统的普及,数据滥用情况严重,隐私泄露风险极高,另一方面,恶意攻击、窃取隐私数据的行为频发,这都需要引起高度重视。

隐私保护问题一直是易盾努力的重点,简单来说,工作可分为以下两个方向:

一是,我们非常尊重客户的数据隐私安全。在 AI 模型训练过程中,借鉴联邦学习的优势,同时结合其他方法对其针对性地优化和改进。同时在模型训练方面,积极探索半监督、自监督、迁移学习、元学习等前沿技术,借助大规模公开数据集,同时致力于提升算法鲁棒性,这些措施都从不同方面助力实现客户数据隐私包含这个目的。

二是,我们一直重视防范恶意隐私窃取行为。在模型训练、模型部署方面,我们对整个 AI 系统,采用了全方位、多形式、精细化的加密和保护措施。同时,我们设计了一整套多部门协作预警的恶意查询监测+防御机制,从多个角度,敏感捕捉到恶意隐私窃取行为,并加以精准防御。

公平性 拒绝数据、决策偏见

AI 系统中的不公平指的是什么?

简单来说,就是系统中出现的各类偏见,例如我们常听到的性别、种族偏见、犯罪行为预测偏见等。偏见产生的原因各种各样,主要是来源于初期收集数据阶段,制订标准、数据收集过程中会引入偏见,同时,也由于系统中缺少针对偏见的监测和约束,模型训练过程中固化了这些偏见,导致最终呈现出来的 AI 系统决策偏见。针对这样的问题,网易易盾在 AI 系统的多个环节,采取了针对性的方案:

首先,在数据收集阶段,我们保证收集过程:全面、多样、及时更新,并结合一系列数据预处理、重采样等措施,达到“保质保量”的效果,在数据源头就保证尽可能地消除偏见。其次,在训练阶段,我们引入公平性相关的量化指标,对其开展监测。最后,我们对模型的数据结果,也进行公平性相关指标的考察和相应调整。

结尾

当下,大家都已经不同程度地经历、见证了人工智能领域近些年来的发展过程,对于这个正在进行中的过程,我们暂时可以将其粗略划分为三个阶段:

首先是 AI 的起步阶段,人工智能领域同时经历了理论发展与开拓性地应用,在这个阶段,应用过程中常常需要投入大量的资源、成本,比如进行人工标注、设计人工干预规则、后期审核等。这一时期的 AI系统,其智能化经常遭到调侃,更无信任程度可言。

而后就是一系列可称之为“野蛮生长”的阶段。我们能看到深度学习的各个分支领域,理论、实践等方面都有非常大的突破,例如借助半监督、自监督、元学习等技术,AI 算法逐步迈向更智能的方向。

接下来,社会逐渐意识到这些问题,主动将 AI 系统推向精细规范、更可靠的方向。行业内大家共同提出,要从透明性、安全性、公平性、可负责、隐私保护等多个方面对 AI 系统进行全方面衡量,同时社会各界,例如政府部门、技术团队、企业、行业组织等,都在从自己的角度围绕这一主题做出努力。

总体来看,易盾也和 AI 行业在一起成长,意识到了 AI 系统发展中的一些问题,并及时从广度、深度两个方向,进行不断的探索实践,也确实在可信 AI 这个目标上积累了宝贵的经验。

安全领域的安全,尤为重要,大家面对的是一个开放性的、充满未知攻击的环境,算法模型的安全问题会一直是易盾工作中的重心,聚焦可控可靠、透明可释、明确责任 、多元包容四大方向,共同打造一个更好的可信 AI 生态。

关于易盾

网易易盾是网易集团旗下一站式数字内容风控品牌,依托网易 20 多年的先进技术沉淀和一线实践经验,作为国内领先的数字内容风控服务商,为面向数字化业务的客户提供专业可靠的安全服务,涵盖内容安全、业务安全、移动安全三大领域,全方位保障客户业务合规、稳健和安全运营。目前,网易易盾已服务超 40 万开发者与数千家付费客户,其中不乏人民网、外交部、华泰证券、中信银行、OPPO、vivo、滴滴、知乎、B 站等知名企事业单位。