中文站

网易易盾实验室多模态视角信息融合技术达到国际领先水平 准确率等关键指标创新高

近日,网易云易盾实验室AI算法研究员的一篇论文《MULTI-VIEW AUTOENCODER FOR IMAGE FEATURE LEARNING WITH STRUCTURED NONNEGATIVE LOW RANK》提出了一种对多视角多模态特征信息进行有效融合的自编码器神经网络,在准确率、NMI、Purity、ARI等各项性能指标上再创新高,较当下多项国际先进的多视角多模态信息融合技术有显著性的领先。

当下,人工智能技术应用范围越来越大。以自编码器(autoencoder)、卷积神经网络(CNN)、循环神经网络(RNN)、长短期记忆网络(LSTM)为代表的深度学习技术因为拥有良好的特征学习能力,被学术界和工业界广泛运用于图像分类、文本语义检测的实际项目中。然而传统的自编码器特征学习技术,忽视了实际数据的多视角特征,只能针对单一的特征进行网络训练和特征学习,无法融合数据多视角特征中大量有用的结构化信息。

易盾实验室AI算法研究员撰写的论文,提出了一种新的对数据多视角特征进行融合和特征提取的自编码器网络。它能在其编码网络中,对各个视角的特征信息进行低秩结构化融合。网络经过训练学习得到的新特征具有非负性和低秩的结构性质,能够有效降低不同视角特征之间的噪声,具有对噪声的抗干扰能力和鲁棒性。所设计的新型自编码器网络通过融合不同视角特征各自携带的局部视角信息,提高新的数据特征的表示能力,有效地提高了数据的分类识别准确率。

需要指出的是,这种对数据多视角特征信息进行低秩结构化融合的自编码器网络方案,对传统的深度学习技术-自编码器神经网络有了很大的创新和改进,对数据语义表示的精准度和分类识别的应用上有较大的性能提高。

看完上面几段文字,估计很多人犯嘀咕:字都认识,结合在一起,却有一种看天书的感觉。这里举一个通俗易懂的例子,形象地比喻:现行的自编码器神经网络技术在数据特征信息的利用上,只能能摸出大象的腿、尾巴,不能对大象进行一个完整、全面的信息描述,无法还原出一个真实的大象。而论文提出的新的多模态视角信息融合技术,因为能够对数据的多视角、多模态特征进行综合提取和有效融合,能把这个大象完整、客观和真实的呈现出来。

新提出的数据特征信息融合技术,已经成功应用于易盾内容安全项目中,并在文本特征处理应用方面申请了相关专利。通过提取文本内容信息的关键词、联系方式、词性句法关系等多视角、多模态信息特征,有效地提高了有害内容的识别率,让网易云易盾内容安全的准确率和召回率更上一个台阶。

此技术创新相关的论文《MULTI-VIEW AUTOENCODER FOR IMAGE FEATURE LEARNING WITH STRUCTUREDNONNEGATIVE LOW RANK》于ICIP 2018 图像处理大会期间发布,一同参加大会的公司包括微软、谷歌、Facebook等技术巨头。由于论文的创新性、应用价值大,该论文已被IEEE数据库收录。


值得一提的是,该论文的主笔为方正,他是IEEE Member(国际电气和电子工程师协会会员)、 国际期刊 IEEE Transactions on Cybernetics和Neural Processing Letters的技术审稿评审,他来自网易易盾实验室。网易易盾实验室成立于2016年,隶属于网易安全部,目前拥有数十名AI算法专家、安全研究员、政策法规研究专员等。实验室目前专注探索人工智能技术在安全领域的应用,以及安全相关法规、社会责任等研究。

最后给大家送下福利:对该论文感兴趣的同学,可以在这里下载:https://ieeexplore.ieee.org/document/8451827/authors