汪源认为,当前人工智能技术发展分为三个层次,第一个层次是底层的平台层,包括深度学习平台。中间的层次是能力层,云计算、自然语言处理、视觉处理等技术处于能力层中。第三个层次是应用层,人工智能各种落地的应用产品在这一层次中。中间的能力层是当前人工智能公司主要的发力点。
对于人工智能在工程领域应用的看法,他认为所有的人工智能都是从语音识别,到图像识别再到自然语言处理。在实际应用场景中,一个通用的处理技术,比如语音识别,在应用到特定场景里的时候,可能达不到较好的使用效果。在自然语言处理方面,以客服机器人举例,基于传统知识库的客服机器人不是真正意义上的人工智能解决方案,只是通过问题来检索知识库。客服机器人要解决多轮对话的问题,涉及到M的机制、A的机制,同时也要解决知识领域的一些问题,客服机器人实际上是知识库的动态学习,以上这些机制是为了提高知识库学习的效率。
汪源表示,图像识别的应用场景同文本识别的原理相似,传统方法在图片过滤应用中解决不了的问题,通过深度学习的方式可以做到非常精准。以网易的图片鉴黄为例,之前需要一些鉴黄师手动筛选,现在依靠深度学习的算法能够做到99.8%的准确率。
以下为演讲实录
刚才吴院长高瞻远瞩,然后讲了很多人工智能激动人心的前沿的一些课题。网易作为一家公司,比较侧重于注重技术跟业务相结合,所以我讲的东西可能会比较落地、比较实际,没有特别高大上的一些话题,我们可能会先树立一些小目标,先解决一些小问题。
先总体上给大家介绍一下网易在人工智能做的相关工作,分成五六个部分。
第一个是介绍一下网易杭州研究院的定位。研究院是06年成立,我刚好在成立的时候进入研究院。网易杭州研究院负责创新业务的孵化,同时也负责给整个公司提供公共的基础平台的支撑。这个机制还是比较特殊的,在国内互联网企业中,唯有网易杭州研究院兼具产品、运维和公共技术平台三重职能和唯一性,为互联网技术研究提供了得天独厚的条件。
对于我来讲,我要为公司的业务提供非常多的技术支撑,从高大上的人工智能,到不太高大上的质量保障都得做。质量保障我们也跟人工智能做了相应的很好的结合。
整个网易杭州研究院主要负责构建的是互联网的技术体系,七大技术体系里面其中一个就是多媒体以及人工智能方向,所以今天讲的主要是人工智能方向我们做的一些工作。
这张图可以囊括一下我们现在人工智能方向主要的工作,其实人工智能是一个非常基础的技术,我在这张图里面大概做了一个概括。这里面可以看到分成三个层次,第一个层次在底层是平台层,包括深度学习的一个平台。中间这个层次是能力层,云的技术、自然语言处理的技术、智能头像处理的技术。第三个是应用层,应用在网易云、游戏、有道翻译等产品里面,对公司来讲我们从三个层面,从品牌、能力最后到应用的场景,今天主要从中间的能力层展开来讲。
第一块是语音技术。网易在语音技术上为了去解决超大规模的、上万个小时的语音训练问题,我们在云这一块就把深度学习的一个平台的技术带动出来了。
我们大概是在13年的时候开始做语音识别,网易在现在所有的游戏、社交、易信这些产品里面都是采用我们自研的语音技术。具体的应用场景最主要的是在手游里面使用量非常大,每天的处理请求量达到五千万,根据公开的一个数据来看,这个量达到苹果系统的1/3左右。
这里面我想突出说一点,这一点也是我们对人工智能在工程领域应用的一个核心认识:所有的人工智能这些能力从语音到图象到自然语音理解,其实它都没有办法提供一个非常通用的解决方案。
所以在语音识别我们一开始用的是通用的,后来觉得在游戏里面效果不太理想的,游戏里面涉及到太多跟游戏世界观相关的词汇,还有游戏里面特殊的一些词。所以我们在自研的过程中针对游戏特定的世界观进行优化,获得比一个通用的云识别要高一两个点的效果。这个也是我们在实际的场景里面会不断的去发现问题。一个通用的人工智能能力它在应用到特定的场景里面的时候,可能达不到一个很好的使用效果。
另外一个我们在做的事情,就是发音评测的工作,主要应用在我们有道翻译里面。
第二块是自然语言理解方面做的工作,这边有一些例子,对于自然语言理解,我们现在主要做的工作是用在客服机器人的应用场景里面。
这边举了一些客服机器人的案例。对一个客服机器人来讲,传统来讲,它是一个知识库的一个检索的问题,传统方式并不是一个人工智能的解决方案。这个用户体验也是很差的。所以现在你如果要提供一个用户体验比较好的客服机器人,那它需要支持比较智能的多轮对话的方式。人跟人之间的对话不是说直接一问一答问题就解决了,它是需要机器人能够了解到这个领域的知识。我举个例子,比如我要打车,我说我要打车到浙大紫金港校区,他应该知道浙大紫金港校区是有东门、南门的,它会追问请问你到哪个门,因为这是两个不同的点,这个其实就涉及到领域的知识。
我很难具体来讲怎么样从技术上、细节上做到这一点,总体来讲对于大家做客服机器人,首先要有一种方式解决多轮对话的问题,这里面可能会涉及到M的机制、A的机制,同时也要解决领域知识的一些问题。这里面就需要用到比如说知识图谱的方式,还需要针对特定的一个行业去做定制。我们做的像知识库的一个动态学习,那这个机制是为了能够提高知识库学习的效率,但是并没有一个特别通用的方案可以客服机器人一下能够无所不能,能够回答所有的问题,这是不现实的。
这个是文本过滤。我们的网易新闻有一个很好的功能叫跟贴,跟贴其实就是用户发表评论,我们把它设计成盖楼的方式,但这个评论里面会涉及到非常多垃圾有害信息。我们的人工智能技术也会用在这里。UGC的产品里面大量的用户评论容易产生不恰当的地方,传统的关健词过滤技术解决不了复杂的垃圾变化,比如拆字,各种组合方式。这时候,通过自然语言理解,通过深度学习的方式能够做到比较好的效果。
第三块智能图象识别。智能图象识别它的主要应用场景跟刚才说的文本的识别、文本的过滤是类似的。我们有很多产品里面用户会晒图,这个图片是不是有不合适的内容,里面有爆恐的、不良广告或者色情的图像,传统的方式也解决不了,但是现在通过深度学习的方式也可以做到非常好的,非常精准的效果。
对于色情图片,对于图片鉴黄,从06年我开始做研究院工作,06年我们的鉴黄师用什么来做的?在一个小黑屋养一堆鉴黄师,那时候量比较少,很辛苦也很幸福。那个时候如果用算法判断,实际上是很困难的,比如用简单的一些肤色识别方式是很麻烦的。稍微做一些编辑你又被它逃掉了,而且你的库不可能非常全面准确。所以它的准确率只有5%。
第二个阶段通过肤色识别,准确率只能做到60%,基本上处于不可用的状态,还有40%是错误的,60减40就剩20%,这个技术基本上没有用。
直到第三代深度学习的做法才做到99.8%这样非常高的准确率。同时,我们还会用机器加人工智能的方式避免误判。这个技术我们现在提供对外的服务,叫网易易盾。
后面说一下我们未来想做的事情,第一个进一步加强人工智能的深度学习平台,因为我们现有非常多的应用都需要用到深度学习。几乎每过一年都会发现很多算法会被深度学习代替。比如我们现在在做基于深度学习的翻译,翻译效果比原来统计的翻译效果会好很多。对于网易来讲现在有近万名的开发工程师,这里面有很多的工程师可能就需要用到机器学习,用到深度学习解决很多问题。我们必须把这个机器学习的能力普及化,让大家一些普通的工程师,前期比较优秀的工程师都能够使用这么一个工具,所以我们会去做一个深度学习的很便捷的机器学习平台,这个对于网易来讲是一个非常基础的工作。
第二个我们希望在语音识别、图像识别、智能创作这些更多的领域来去深入应用深度学习技术。