中文站

对虚假视频的思考:当眼见也为虚,我们该怎么办?

前言:随着深度学习技术的发展,虚假视频的制造成本越来越低,比如DeepFake这类的技术被大量恶意应用于明星色情视频与欺诈视频的生成,引起了各国政府与网络监管部门的重视。国内在不久之前的人脸生成程序ZAO也在网友的朋友圈里掀起了一波换脸秀,同时也带来了许多关于个人隐私与AI安全的思考。


俗话说“耳听为虚,眼见为实”,当眼睛看到的也不知真假的时候,我们的安全该怎么办?


正文:

换脸技术探秘


在考虑对策前,我们先要知道人脸是如何被篡改的。其实人脸编辑/换脸技术在很早之前就已经出现在影视行业中,比如好莱坞的的电影中《阿甘正传》、《速度与激情7》中,人脸的特效技术已经应用的十分逼真,但是这些作品的背后需要大量的CGComputer Graphics,计算机图形学)技术,需要专业的人员来进行人像模型建模与渲染,消耗大量的时间与计算资源。在电影《猩球崛起3》中,我们会惊叹猩猩们的面部表情细节,这也得益于专业的面部动作捕捉设备,但往往这些设备价值不菲,并且需要专业的人员来进行操作与后期处理。

 左图《阿甘正传》中:主演与已故美国总统肯尼迪同框出现。右图《速7》中保罗的出镜由人脸特效生成

                                                              

《猩球崛起3》中猩猩凯撒的表情通过动作捕捉设备生成

近几年,随着深度学习(Deep learning)技术的进步,尤其是卷积神经网络的突飞猛进,比较复杂的图像操作也可以被深度模型实现,比如图像风格化、黑白影片上色、人脸上妆/卸妆等,人脸换脸也不例外,早在2017DeepFake技术已经出现,作者采用深度卷积编码-解码方式修改视频中名人的脸,该技术在国外引发了一系列伪造色情片现象,以至于著名的论坛RedditFacebookYouTube等采用强制封禁的方式才遏制住这一行为的传播。

 

 2017年网易杭研年会笔者为节目制作的换脸视频(将网易易盾实验室同事篡改为港台某男星)

 

正是因为深度学习技术降低了人脸换脸的门槛,因此类似的算法目前在社区有大量的开源项目,整个算法流程大概如下图所示,最核心的部分在于编码器-解码器(Encoder-Decoder)部分,编码器在于将输入的人脸图像进行抽象,主要保留人脸的表情信息等,解码器的作用在于将抽象的人脸信息进行复原,生成人脸图像。换脸的环节就在于将不同人的解码器互换,从而保证面部表情的一致。

 

编码器与解码器都需要采集人脸图像进行训练,因此,假如不注重防护的话,个人人脸图像泄露就会被不法分子利用,进行换脸的攻击。

 

 人脸换脸的流程

 

 

 

人脸编码器的深度模型结构

 

 

 

人脸解码器的深度模型结构

 

除了脸,身体也可以修改!

 

当换脸技术日益成熟,加州伯克利大学的研究者们另辟蹊径,提出了一种人体动作编辑技术。即使四肢不协调也可以变成舞王。该算法可以捕捉专业的舞者身体姿态,并通过对抗生成网络将动作转移到另外一个非专业的人身上,生成一段同样的舞蹈。


 

 舞蹈动作迁移

 

算法主要包括三个步骤:姿势检测、全局姿势归一化、从归一化的姿势简笔画映射到目标人物,如上图所示,姿态检测的目的是获取人体姿态的简笔画,通过对简笔画的处理操作,利用人体生成器从简笔画中恢复出目标人体的图像。只有在电影制作中才出现的人体动作编辑,现在只需要拥有GPU就可以在家里实现了!虽然目前该技术仍然不是很成熟,人物的动作会抖动,分辨率不高,但随着技术的发展,相信未来会更加的真实。

 

比利时大学的研究者们提出了一种技术可以骗过安防摄像头的算法,只需要在身上挂一小块干扰元素那么你在公共场合,行人检索系统将无法定位到你。这项技术还可能造成的隐患是,对于行人,自动驾驶系统将无法检测到前方的行人,从而引发交通事故。当然,这项算法可攻击的还仅仅是YOLOV2这一特定的检测器,并不能广泛攻击,但随着技术进步,也许攻击的算法会更加的鲁棒。

 

 网上售卖的用来躲避安放监控系统的上衣(cloakwear.co

 

风险与建议

由于人脸与人体都能够被篡改、伪造,并且伪造的技术门槛被大大降低,在网络上这方面的发展十分迅速,因此安全方面存在着巨大隐患。《华尔街日报》最近报道称,一家英国能源公司的首席执行官被骗将24.3万美元资金转到了匈牙利供应商的账户上。这位高管说,他以为自己是在老板对话,后者似乎已经批准了这笔交易。现在,这位首席执行官认为,他是一场音频深度伪造骗局的受害者。

 

江苏南京江宁分局岔路派出所近日向中国之声介绍了这样一个案例。该局接到报警,受害人陈先生微信收到“熟人”王某发来的借钱语音,受害人听到是朋友的声音,没多想就把钱转了过去,于是落入了骗子的圈套。警察表示骗子从微信里发过的语音中提取个人声音生成假语音,还能模仿语气和情绪,网售语音包和语音软件可以生成任何嗓音和内容的音频。这虽然仅仅是利用深度技术对音频进行篡改,但未来通过技术对人脸、人体进行篡改诈骗只是时间的问题,而且造成的损失会更大。

 

除了对视觉上进行肉眼可见的欺骗,即对人眼的欺骗,攻击者还可以进行肉眼不易观察到的欺骗,即对图像识别系统的欺骗。通常做法是在原始图像上增加一层精心设计的微小干扰,就能导致图像识别系统识别错误,从而混淆图像识别系统。目前的技术可以做到无目标攻击(识别结果错误),有目标攻击(识别成指定的结果)。

 

根据攻击者对被攻击系统情况的掌握程度,可以分为三种:黑盒攻击、灰盒攻击和白盒攻击。黑盒攻击是指攻击者对于机器学习系统的算法、模型、参数等毫无知情,只能获取输入与输出的结果。白盒攻击是与黑盒模型相反,攻击者对模型一切都可以掌握。灰盒攻击介于黑盒攻击和白盒攻击之间,仅仅了解模型的一部分,例如仅仅拿到模型的输出概率,或者只知道模型结构,但不知道参数。

  

图像对抗攻击示意图(crowdai.org

 

2018年,清华大学的学生吴育昕等人在信息安全领域的国际安全极客大赛CAAD2018中,实现了对亚马逊、微软等人脸识别系统的攻击,通过对抗样本攻击,将主持人蒋昌建的人脸图像增加干扰,从而使得AI系统错误地识别成施瓦辛格。这项技术可以用于人脸刷脸认证系统的破解,对于安防、金融、医疗系统都可以产生威胁!

 

亚马逊人脸识别系统将蒋昌建错误的识别成施瓦辛格

 

利用深度伪造技术,视频中的人脸信息可以被篡改,人体动作行为可以再生成,恶意改造可能会严重侵犯个人隐私,引起的传播效应会对个人造成负面的社会影响,并且,这一系列技术给司法鉴定也带来了更大的困难。同时,别有用心的组织利用深度伪造技术对政要、记者等人物进行篡改,在发生重大事件中可能会混淆视听,影响新闻报道的真实性,造成社会舆论混乱,危害社会稳定。

 

对于图像伪造,美国政府早已高度重视,将其列为国防部DARPA研究项目。国外科技巨头公司Facebook宣布拿出1000万美金用于奖励Deepfake视频的辨别研究,同时还联合微软、MIT、斯坦福等公司和研究机构举办相关的比赛。在国内,众多科技公司的AI部门与高校都有进行相关的研究,网易易盾实验室在图像对抗样本攻击与防御也在开展相关研究,深入研究攻击样本产生的原理,并结合线上真实案例,对于Deepfake、对抗生成样本,通过预处理、样本增强、图像质量增强、对抗训练等多种方案进行防御,均取得了不错的拦截效果。

 

线上UGC内容经常出现敏感人物被恶搞的图像、视频,包括涉黄、涉政等不良信息。随着技术的发展,我们发现这类伪造内容越来越逼真,越来越难发现。这一现象也督促易盾从内容治理到隐私保护的方向上,进行技术拓展、研究和应用,抵御新的安全风险类型。视频换脸、动作生成等技术本身是炫酷、好玩、能带来应用价值的,前提是需要正确面对安全隐患,网易易盾正是朝着“让科技更安全”这个方向在积极行动,AI系统的安全防护任重而道远(/网易易盾实验室)。