日前,INTERSPEECH 2024圆满落幕。作为全球语音科学界最负盛名的年度会议之一,INTERSPEECH每年都会公布来自全球的优秀学术论文。
本届会议,网易易盾AI LAB两篇论文被大会官方录选,两篇论文主题分别聚焦跨模态预训练和流式语音识别等应用方向的创新突破。这也是网易易盾AI LAB连续第二年学术成果得到INTERSPEECH会议官方认可,并与世界顶级学术圈层共享学术研究成果。
INTERSPEECH汇聚了来自世界各地的顶尖学者、研究人员及行业领袖,共同探讨语音技术的最新进展、挑战与未来趋势。这一平台不仅代表了语音技术领域的最高学术水平,也是新技术、新理念交流与碰撞的绝佳场所,受到全球语言领域人士的广泛关注。
作为国内领先的数字内容风控服务商,网易易盾在文本、图像、音频、视频等多模态内容领域内素有深厚的技术沉淀以及极强的创新驱动力。以下将从两篇论文的研究结论和实际应用讲解网易易盾是如何将学术成果用于技术创新,并最终在产品与服务中实现价值提升。
01「硬核」之跨模态预训练,打造更高效的音频检测
在过去的几十年里,人工智能取得了长足的进步,但大多数系统仍然局限于单一模态,如自然语言处理(NLP)或计算机视觉(CV)。然而,人类认知是多模态的,我们通过视觉、听觉、触觉等多种感官来感知和理解世界。因此,构建能够像人类一样处理和理解多模态信息的人工智能系统,是当前人工智能领域的一个重要挑战。
直至近两年人工智能引领新一轮科技革命,跨模态预训练成为了计算机科学与相关领域的研究热点。网易易盾AI LAB第一篇入选论文《Cross-Modal Denoising: A Novel Training Paradigm for Enhancing Speech-Image Retrieval》即旨在探索文本和视觉模态的大模型发展相对领先于语音模态的背景下,下一代语音检测技术的创新方向。
“如何将文本视觉大模型的语义知识注入到语音模型中,从而打造更强大的语音通用大模型,并将语音大模型的能力迁移至易盾所有语音检测服务。”网易易盾AI LAB认为这是一个很值得研究的课题。
视觉模态可以通过图文跨模态预训练的方式,打造更强的视觉模型。根据这个经验,网易易盾AI LAB借鉴这种方式设计了一套合理的视觉语音对齐的训练范式,在特征空间中对齐视觉和语音两个模态,利用跨模态预训练方式得到更强的语音模型。
易盾AI技术团队在多个学术界开源数据集和大量业务数据集上进行了多项探索实验,并总结出创新的跨模态预训练范式,创新性地提出了高效的辅助训练任务,图中所示的Cross-Modal Denoising(CMD)任务,来对齐视觉和语音模态。CMD任务无需任何人工标注,通过自监督的方式帮助语音和视觉实现细粒度的对齐,在公开数据集的评测中取得了学术界最佳的性能。相较于之前学术界最佳模型,在Flickr Audio和SpokenCOCO两个公开数据集上的召回率均显著提高。
论文框架图如下:
通过在此方向上的长期研究,易盾AI技术团队探索出视觉语音跨模态大模型的先进训练范式,在安全领域的多模态大模型方面做出了技术储备和沉淀。论文中的测试结果表明,研究团队能够较好地对齐视觉和语音模态。未来,随着开源数据和业务数据的积累,网易易盾AI LAB将借助论文所述的路径继续探索安全领域的跨模态大模型。
基于以上研究,易盾还致力于打造单模态语音通用大模型,赋能现有音频内容检测服务。在得到语音通用大模型之后,易盾可以将语音通用大模型的能力迁移到易盾现有的所有语音检测服务。特别是在服务启动阶段,这种能力的迁移相对提升很明显,例如为色情识别,人物识别和语种识别服务分别带来6%-12%的精度提升。
此外,研究成果还将指导高效语音特征的研发,以增强易盾语音检测服务的全面性。语音大模型提取的特征鲁棒性更强,因此网易易盾可以利用它来创建高效、精准的语音特征库。
02「硬核」之流式语音识别创新,聚焦低延时高精度
在实时流式语音识别领域,该项语音识别技术也随着人工智能技术快速发展,迎来显著的进步。
流式语音识别是一种将连续的语音信号转化为文本或指令的技术,相比于传统的语音识别方法,流式语音识别可以更准确地捕捉说话者的连续表达,极大地提高了识别准确性和用户体验,其核心在于能够实时处理音频流,并即时生成相应的文本或指令,这使得它在智能助手、语音交互、教育娱乐等领域具有广泛的应用前景。
在数字内容风控场景中,客户需要的是低延时高精度的支持流式识别的ASR服务。因此,网易易盾需要持续投入技术创新,在保证服务精度的同时,降低服务的时延。网易易盾AI LAB第二篇入选论文《Learning from Back Chunks: Acquiring More Future Knowledge for Streaming ASR Models via Self Distillation》即是为了推进该创新。
网易易盾AI技术团队提出了一种可感知未来信息的Transformer框架,从而提升流式语音识别的精度和延时性能。这篇论文被挑选为oral presentation。在广泛使用的语音识别benchmark AISHELL-2和AISHELL-1数据集上,论文研究方法都取得了显著的性能和延时提升,与业界基于Transformer方法对比性能最优。具体地,相对baseline模型,在两个数据集上相对提升中位数分别为10%和4%。
论文框架图如下:
网易易盾AI LAB认为,在易盾智能语音检测业务场景中,存在实时(流式)检测需求和离线(非流式)检测需求,流式语音识别可以实现实时的识别和交互,适用于需要快速响应和连续输入的场景,如直播场景的语音内容检测、游戏场景的实时语音识别等。
截至目前,该算法已经应用在线上流式语音识别业务模型提升上,通过未来知识增强提升流式识别场景下的准确率。经实验验证,在流式识别场景下,论文研究方法在平均时延降低的前提下,在多个数据集上均取得1.5%-2%的绝对精度提升,这是一个相当“硬核”的提升效果。
并且,经用户体验反馈,优化后的模型具有更高的准确率,体现在识别结果中的错字和漏识别字的情况减少。
一直以来,网易易盾AI技术团队致力于围绕精细化、轻量化、敏捷化,打造全面严谨、安全可信的AI技术能力,不断提升数字内容风控服务水平。连年获得顶级学术会议认可的网易易盾,将继续在包括语音AI在内的各个AI方向上深入研究,持续用技术为服务价值提升创造更大的空间。