中文站

网易易盾入选“智信计划”首批成员单位,共筑可信 AI 生态

近期,中国信息通信研究院(以下简称“中国信通院”)在 2022 可信 AI 峰会(主论坛)上公布了首批“智信计划”成员单位,网易智企旗下数字内容风控品牌网易易盾,凭借安全合规的人工智能识别技术,入选中国信通院“智信计划”首批成员单位。

网易易盾与中国移动、腾讯云、蚂蚁集团、百度等互联网、数字科技、通信领域的头部企业一同入选,携手铸就可信的人工智能应用环境。此前不久,网易易盾还成为了中国信通院发起的人工智能可信治理系列标准参编单位,并参与中国信通院云大所倡议发起的“可信人脸应用守护计划”。


作为业内领先的 AI 企业,网易易盾致力于推动 AI 应用的健康落地,网易易盾 AI 实验室有着丰富的技术积累和业务落地经验,提供涵盖文本、图片、视频与音频的多类型的内容检测。理解图像、文字、语音的工作交给 AI 机器算法,有效帮助人力从简单重复的审核操作中脱离出来,全天候守护清朗的网络空间。点击免费试用网易易盾内容检测

为 AI 引入信赖机制

早上 8:00,上班族在闹钟的呼唤中醒来,打开社交软件阅读新鲜事,回复了一个在线帖子,在用早餐的间隙,收听当天的天气预报与早间新闻。在这个过程中,人工智能(AI)无处不在。内容中可能存在着各种大大小小的问题。人工智能技术像一位敬业的管家,自动化完成内容审核,不让污染视听的内容进入大众的视线,用时仅需毫秒,让用户畅游在安全的内容生态中。

此外,AI 也藏身于语音助手、面部识别、自动驾驶等功能中,在日常的客厅、汽车和钱包中,AI 已经渗透到我们的日常生活中,潜移默化地给世界带来巨大的变化。很显然,随着人工智能变得越来越普遍,AI 的失控将置人类于危险之中,可信人工智能建设必须放在重要位置。

当前,AI 仍旧存在种族歧视与偏见等现象,相关问题层出不穷。此前,在谷歌搜索中输入典型的黑人名字会推荐逮捕记录查询的广告,谷歌相册将美籍非洲裔黑人的照片错误定位为大猩猩。究其原因在于 AI 训练依赖于数据,一旦数据类型过于集中,将会导致社会偏见的长期存在。

此外,网络犯罪疯子将目光聚焦于破坏人工智能,给予致命性的打击,落入别有用心的人手中。黑客突破人脸系统转走大量资金,掌控网络推荐系统向大众推送影响判断的文章。人工智能算法从设计、训练到使用均面临可信赖性问题。


图 | 欧盟对可信 AI 概念的要求

鉴于 AI 决策对人类的影响,网易易盾以可信为基石,从公平性、透明性、安全性、隐私保护等多个方面评估 AI 系统的风险,将人工智能在内容审核过程中的独特危害降至最低。

如果在对 AI 系统进行训练时,没有针对性的考虑与设计,可能会让偏见在“内容风控决策”时发挥作用。

易盾制定框架来解决这个类型的问题,从预处理、模型训练、后处理这三个方面出发,提高模型的公平性。预处理方面,通过重采样等方式对数据进行清洗、从而降低数据中存在的偏差。模型训练方面,考虑模型公平性要求,增加损失项或者正则项来保证提升模型的公平性。综合策略方面,考虑决策偏差的特点,调整后处理方式减轻模型的决策偏差。

AI 黑盒如何得出内容风控的结论和建议,审核的可预性是大众信任计算机做出“内容风控决策”的关键。

易盾在算法模型训练过程中通过“可视化机制评估”来解释模型的中间状态,尽可能拉近模型和人之间的感知差距,能做什么和不能做什么,使得模型输出可接受的结果。

针对 AI 的网络攻击可能肆意篡改“内容风控决策”,如控制仇恨言论检测系统以发布大量危言耸听的话术。

易盾结合关联图网络、行为模型、用户属性等其他技术,进行全方位诊断和分析,提升整体服务的可信程度。即便单一的算法遭到攻击,其他技术也能及时补上,令结果更加稳定可靠。

AI 致力于内容风控

2017 年,大量针对儿童的粗制滥造的视频在视频分享网站 YouTube 上流传,内容绑架迪士尼角色做出粗俗行为,堂而皇之采用纯真的童谣混搭,描绘性与暴力、淫秽语言、酒精和药物滥用。在上传数月之后,上述内容才被发现与删除。UGC 内容变得血腥,令人震惊与不安。

由于涉及黑产的经济利益,内容安全是一个充满对抗和升级的过程,变种不断涌现。单靠人类无法做到的海量、即时、敏捷的审核,而互联网又催生了数量、速度、种类都前所未有的内容。毫无疑问,AI 将视为一个可靠的解决方案。

网易易盾内容安全借助于深度学习技术,在自然语言处理、机器视觉和机器听觉等领域都取得了迅速的进展,通过数据收集标注、模型训练、效果优化、性能优化、算法测试这一系列标准化流程构建全面的算法内容安全能力。


以音频审核为例,易盾音频内容安全算法主要由声音分类算法和语音识别算法两部分组成。其中声音分类算法(Sound Classification)主要用于识别音频中的声音类型,例如娇喘、呻吟、ASMR、说话语种等,语音识别算法(Automatic Speech Recognition, ASR)主要用于说话内容识别,将语音内容转写为文字内容,并进一步检测文字的合规性。点击免费试用网易易盾音视频检测

目前,越来越多企业正在使用这套处于数字内容风控领域领导者地位的、可全面降低人力成本的、高效拦截违规不良内容的内容安全解决方案,平稳地开展内容生态的数字化转型之旅。