“在互联网上,没人知道你是一条狗”
网民将目光转移到互联网舆论场上,在马甲的掩饰下畅所欲言,却并很少在意发布内容的质量。在更恶劣的情况下,网络黑产或幕后推手藏匿在背后恶意引导,企图制造混乱与混淆视听。
当前,文本在互联网信息量仍旧占据主导地位,其数量最多,在图片、语音和视频中也存在着文本的身影。通过文本传输的谩骂、暴恐内容,对社会高度危险,引发网络暴力与极端主义风险。
面对内容质量问题,业界转向人工智能“机器学习”,帮助人类提高文本审核效率,并帮助定义需重新评估哪些内容,从而节省大量时间。在对话和翻译应用之外,NLP 技术逐渐在审核工作中崭露头角。
自然语言处理 (NLP)技术打破了人类与计算机之间的语言理解门槛,使计算机可以理解人类语言,在对话类的“虚拟个人助理”与“翻译机器”中有广泛应用。
林洋港在研究生毕业以后,进入了一个相对小众的领域,即针对有害内容的“文本识别”算法研发,旨在提供一种检测与阻断传播有害内容的方法,快速发现危机情绪与糟糕言论。该项技术在最早主要源于垃圾邮件的拦截需求,而如今已经成为各类线上社交娱乐社区中不可或缺的保障。
从事 NLP 算法研究工作 10 年以上,林洋港持续跟踪与服务文本理解与分类,聚焦如何对抗文本中的不良有害内容。随着内容安全检测的需求愈加明显,林洋港指导的 NLP 算法团队逐渐壮大,发展成多人团队。团队在有害内容变种智能识别、形近字库构建、机器情绪理解等方面的经验颇丰,将复杂晦涩的 NLP 技术转化为实用的产品化输出。
不少人在网络争论中遭遇过脏话,或生气反击,或自我消化。赛博空间之中高度自由,发泄情绪的谩骂之词不堪入耳。这些话语在未被人类看到之前就被拦截,避免造成心理创伤,那是因为 NLP 技术在暗中起了作用,为各大平台执行文本审核。
文本审核依据管控建议,检测或识别文本中的有害信息,如关于谩骂的问题、关于暴恐的问题等,以提高定位的准确性,这种问题发现就属于文本审核的范畴。
林洋港谈到,借助通用的自然语言模型,团队让机器“增量”式自我学习,以达到识别的目标效果。主要目标是通过捕获词汇、句法和语义信息,从而将自由文本转换为结构化数据。简单而言可以归纳为几个步骤:
一是,文本预处理,简化和准备文本以供进一步分析。二是,特征生成,将文本转换为适合不同计算分析方法使用的结构化数据表示,三是,观察数据上的特征,选择一个合适的算法模型,对模型的结构做出调整。四是,为了提升审核速度,还需要使用模型压缩的技术,把模型变小,满足线上检测的实时性要求。
业务落地的过程看似简单,但难题有很多。面临诸如“数据不平衡削弱计算机的挑选分类能力”、“强对抗性迫使算法也得不停升级”、“文本短导致语义理解偏差”等诸多挑战,满足不了有害内容定位的超高准确率要求。
近年来,随着底层技术的持续突破,以 BERT 为代表的预训练语言模型及模型蒸馏技术等发展相继出现,NLP 技术迎来新的“春天”。“过去难以完成的事情,现在迎刃而解。”林洋港表示,以审核任务来说,训练算法模型所需的标注数据在减少。为了让计算机学会判断同一类有害内容问题,过去将耗费近 10 万的数据才能达到一个理想的效果,基于预训练语言模型 fine-tune 技术如今仅需要几千上万的数据即可完成模型的学习。
与此同时,结合模型压缩技术,如剪枝、量化、蒸馏等方法,采取更为轻量级的深度学习模型,在维持原有精度的前提下,将计算机的任务执行时间进一步缩短。
这种速度让人类望洋兴叹。人类每分钟可阅读 500 字,挑选出问题内容则需要更长时间,而机器的文字处理速度比这快很多倍,毫秒之间就可检测完毕近百字。
在易盾,本文审核的实现形式多样,设置了规则系统、特征库匹配、文本分类、高频检测(短时间观察相似内容的数量)、用户画像(发布者的账号风险)等环节对文本数据做出评估。
“将算法应用到业务中与学术界研究的关注点不同,学术界偏通用技术的研究,较少关注‘有害内容识别’这一方向。”他表示,学术界的资料提供了一些启发,但更重要的是,算法工程师们根据对业务需求的理解,在底层技术研发上摸索解决之道。
林洋港给团队设定了一个目标,始终关注对于他们来说有点难度、有点挑战的事情,专注机器在有害内容识别任务上的系统开发,保持效果与技术能力的领先性。
任务一:理解语言的情感
计算机不会直接推测单词的意思,但可以通过可量化指标进行打分判断,可量化的指标越多,计算机对文本执行审核就越准确。经过从不同角度研究和分析,易盾可量化的指标包括分类模型的分数、短期的频率、IP 历史、账号历史、特征库内容相似度等。
定位文本中的有害内容,最基础的做法是搭建违规关键词库,关键词库的确可以“依样画葫芦”式直接拦截谩骂,但这种方法的局限性非常明显:误伤较高,导致准确率不佳。随着对抗的升级,“有害内容识别”对于语义理解的需求程度不断上升。
“文本审核不仅仅是分辨书面文字,还包括理解这些文字的情感与意图。”林洋港介绍说,文本分类(text classification)根据正面、负面或中性这三大标签分门别类,来分析文本的上下文、语气或情绪。
任务二:边缘语言的训练
在护航企业“走出去”的过程中,易盾发现,大量用印尼语表达的不良内容突袭在线社交 APP,它们灵活多变,让产品变得乌烟瘴气,成为中国企业海外本地化的一大掣肘。
当前,全球 50 亿人通过互联网获取信息与交流,多种语言在互联网上汇聚。大多数平台对于边缘化的语言束手无策,根本没有自动化审核工具与监督机制,完成针对多种类语言的审核十分有必要。
“要想取得较好的效果,需要一个一种去做,对数据量要求较大。”林洋港表示。对于技术团队而言,目前遇到的最大的难题是,算法人员本身也不懂这个语言,“谩骂”与“暴恐”内容在机器翻译中不是很准,会影响技术员对其判断。
为此,团队中引入了熟悉不同语言的运营专家们,在通力协作下,目前取得的自然语言方面的成果较多,覆盖了 20 多种语言,不仅能够理解中文、英文、阿拉伯文、法文、俄文等国际通用语种,同时补充了边缘语言的理解,如印尼语等。
互联网上谩骂和极端主义言论的散播,已经是各国民众普遍的忧虑。少数人的滥用,由多数人承担伤痛,网络空间的可信程度急剧下降。
与现实生活一样,对数次违规发布内容的用户予以处罚,如永久禁止发言等,有利于提升网络空间治理水平。NLP 技术为对抗谩骂与暴恐内容提供了有效的手段,也让人类在色情、种族歧视、煽动性言论、无意义灌水、广告等有害文本前力量增强,在更短时间内提高调查能力,并加深对黑灰产用户和社区氛围的了解。
这也是易盾 NLP 技术团队的努力方向,利用技术构建屏障,将侮辱谩骂、网络霸凌、极端恐怖主义等现象的影响降低到最小程度。