网易易盾智能反垃圾：AI商业化实践之路

【易盾动态】2016-12-08

分享到

汪源认为，当前人工智能技术发展分为三个层次，第一个层次是底层的平台层，包括深度学习平台。中间的层次是能力层，云计算、自然语言处理、视觉处理等技术处于能力层中。第三个层次是应用层，人工智能各种落地的应用产品在这一层次中。中间的能力层是当前人工智能公司主要的发力点。

对于人工智能在工程领域应用的看法，他认为所有的人工智能都是从语音识别，到图像识别再到自然语言处理。在实际应用场景中，一个通用的处理技术，比如语音识别，在应用到特定场景里的时候，可能达不到较好的使用效果。在自然语言处理方面，以客服机器人举例，基于传统知识库的客服机器人不是真正意义上的人工智能解决方案，只是通过问题来检索知识库。客服机器人要解决多轮对话的问题，涉及到M的机制、A的机制，同时也要解决知识领域的一些问题，客服机器人实际上是知识库的动态学习，以上这些机制是为了提高知识库学习的效率。

汪源表示，图像识别的应用场景同文本识别的原理相似，传统方法在图片过滤应用中解决不了的问题，通过深度学习的方式可以做到非常精准。以网易的图片鉴黄为例，之前需要一些鉴黄师手动筛选，现在依靠深度学习的算法能够做到99.8%的准确率。

以下为演讲实录

刚才吴院长高瞻远瞩，然后讲了很多人工智能激动人心的前沿的一些课题。网易作为一家公司，比较侧重于注重技术跟业务相结合，所以我讲的东西可能会比较落地、比较实际，没有特别高大上的一些话题，我们可能会先树立一些小目标，先解决一些小问题。

先总体上给大家介绍一下网易在人工智能做的相关工作，分成五六个部分。

第一个是介绍一下网易杭州研究院的定位。研究院是06年成立，我刚好在成立的时候进入研究院。网易杭州研究院负责创新业务的孵化，同时也负责给整个公司提供公共的基础平台的支撑。这个机制还是比较特殊的，在国内互联网企业中，唯有网易杭州研究院兼具产品、运维和公共技术平台三重职能和唯一性，为互联网技术研究提供了得天独厚的条件。

对于我来讲，我要为公司的业务提供非常多的技术支撑，从高大上的人工智能，到不太高大上的质量保障都得做。质量保障我们也跟人工智能做了相应的很好的结合。

整个网易杭州研究院主要负责构建的是互联网的技术体系，七大技术体系里面其中一个就是多媒体以及人工智能方向，所以今天讲的主要是人工智能方向我们做的一些工作。

这张图可以囊括一下我们现在人工智能方向主要的工作，其实人工智能是一个非常基础的技术，我在这张图里面大概做了一个概括。这里面可以看到分成三个层次，第一个层次在底层是平台层，包括深度学习的一个平台。中间这个层次是能力层，云的技术、自然语言处理的技术、智能头像处理的技术。第三个是应用层，应用在网易云、游戏、有道翻译等产品里面，对公司来讲我们从三个层面，从品牌、能力最后到应用的场景，今天主要从中间的能力层展开来讲。

第一块是语音技术。网易在语音技术上为了去解决超大规模的、上万个小时的语音训练问题，我们在云这一块就把深度学习的一个平台的技术带动出来了。

我们大概是在13年的时候开始做语音识别，网易在现在所有的游戏、社交、易信这些产品里面都是采用我们自研的语音技术。具体的应用场景最主要的是在手游里面使用量非常大，每天的处理请求量达到五千万，根据公开的一个数据来看，这个量达到苹果系统的1/3左右。

这里面我想突出说一点，这一点也是我们对人工智能在工程领域应用的一个核心认识：所有的人工智能这些能力从语音到图象到自然语音理解，其实它都没有办法提供一个非常通用的解决方案。

所以在语音识别我们一开始用的是通用的，后来觉得在游戏里面效果不太理想的，游戏里面涉及到太多跟游戏世界观相关的词汇，还有游戏里面特殊的一些词。所以我们在自研的过程中针对游戏特定的世界观进行优化，获得比一个通用的云识别要高一两个点的效果。这个也是我们在实际的场景里面会不断的去发现问题。一个通用的人工智能能力它在应用到特定的场景里面的时候，可能达不到一个很好的使用效果。

另外一个我们在做的事情，就是发音评测的工作，主要应用在我们有道翻译里面。

第二块是自然语言理解方面做的工作，这边有一些例子，对于自然语言理解，我们现在主要做的工作是用在客服机器人的应用场景里面。

这边举了一些客服机器人的案例。对一个客服机器人来讲，传统来讲，它是一个知识库的一个检索的问题，传统方式并不是一个人工智能的解决方案。这个用户体验也是很差的。所以现在你如果要提供一个用户体验比较好的客服机器人，那它需要支持比较智能的多轮对话的方式。人跟人之间的对话不是说直接一问一答问题就解决了，它是需要机器人能够了解到这个领域的知识。我举个例子，比如我要打车，我说我要打车到浙大紫金港校区，他应该知道浙大紫金港校区是有东门、南门的，它会追问请问你到哪个门，因为这是两个不同的点，这个其实就涉及到领域的知识。

我很难具体来讲怎么样从技术上、细节上做到这一点，总体来讲对于大家做客服机器人，首先要有一种方式解决多轮对话的问题，这里面可能会涉及到M的机制、A的机制，同时也要解决领域知识的一些问题。这里面就需要用到比如说知识图谱的方式，还需要针对特定的一个行业去做定制。我们做的像知识库的一个动态学习，那这个机制是为了能够提高知识库学习的效率，但是并没有一个特别通用的方案可以客服机器人一下能够无所不能，能够回答所有的问题，这是不现实的。

这个是文本过滤。我们的网易新闻有一个很好的功能叫跟贴，跟贴其实就是用户发表评论，我们把它设计成盖楼的方式，但这个评论里面会涉及到非常多垃圾有害信息。我们的人工智能技术也会用在这里。UGC的产品里面大量的用户评论容易产生不恰当的地方，传统的关健词过滤技术解决不了复杂的垃圾变化，比如拆字，各种组合方式。这时候，通过自然语言理解，通过深度学习的方式能够做到比较好的效果。

第三块智能图象识别。智能图象识别它的主要应用场景跟刚才说的文本的识别、文本的过滤是类似的。我们有很多产品里面用户会晒图，这个图片是不是有不合适的内容，里面有爆恐的、不良广告或者色情的图像，传统的方式也解决不了，但是现在通过深度学习的方式也可以做到非常好的，非常精准的效果。

对于色情图片，对于图片鉴黄，从06年我开始做研究院工作，06年我们的鉴黄师用什么来做的？在一个小黑屋养一堆鉴黄师，那时候量比较少，很辛苦也很幸福。那个时候如果用算法判断，实际上是很困难的，比如用简单的一些肤色识别方式是很麻烦的。稍微做一些编辑你又被它逃掉了，而且你的库不可能非常全面准确。所以它的准确率只有5%。

第二个阶段通过肤色识别，准确率只能做到60%，基本上处于不可用的状态，还有40%是错误的，60减40就剩20%，这个技术基本上没有用。

直到第三代深度学习的做法才做到99.8%这样非常高的准确率。同时，我们还会用机器加人工智能的方式避免误判。这个技术我们现在提供对外的服务，叫网易易盾。

后面说一下我们未来想做的事情，第一个进一步加强人工智能的深度学习平台，因为我们现有非常多的应用都需要用到深度学习。几乎每过一年都会发现很多算法会被深度学习代替。比如我们现在在做基于深度学习的翻译，翻译效果比原来统计的翻译效果会好很多。对于网易来讲现在有近万名的开发工程师，这里面有很多的工程师可能就需要用到机器学习，用到深度学习解决很多问题。我们必须把这个机器学习的能力普及化，让大家一些普通的工程师，前期比较优秀的工程师都能够使用这么一个工具，所以我们会去做一个深度学习的很便捷的机器学习平台，这个对于网易来讲是一个非常基础的工作。

第二个我们希望在语音识别、图像识别、智能创作这些更多的领域来去深入应用深度学习技术。

分享到

网易易盾智能反垃圾：AI商业化实践之路

热门标签

热门文章

听劝！OpenClaw用前，先把这个Skill安排上！

OpenClaw 给了每个人"数字分身"，但企业更需要可靠的 AI 员工

多模态大模型综合防御体系，构筑金融安全 “护城河”

新规将至，网易易盾「AI生成识别」破局合规焦虑

国内首个！网易易盾参编国标《生成式人工智能服务安全基本要求》，领先助力行业健康发展