人身攻击和极端主义加速，NLP技术挺身而出

【技术干货】2022-10-20

分享到

“在互联网上，没人知道你是一条狗”

网民将目光转移到互联网舆论场上，在马甲的掩饰下畅所欲言，却并很少在意发布内容的质量。在更恶劣的情况下，网络黑产或幕后推手藏匿在背后恶意引导，企图制造混乱与混淆视听。

当前，文本在互联网信息量仍旧占据主导地位，其数量最多，在图片、语音和视频中也存在着文本的身影。通过文本传输的谩骂、暴恐内容，对社会高度危险，引发网络暴力与极端主义风险。

面对内容质量问题，业界转向人工智能“机器学习”，帮助人类提高文本审核效率，并帮助定义需重新评估哪些内容，从而节省大量时间。在对话和翻译应用之外，NLP 技术逐渐在审核工作中崭露头角。

自然语言处理 (NLP)技术打破了人类与计算机之间的语言理解门槛，使计算机可以理解人类语言，在对话类的“虚拟个人助理”与“翻译机器”中有广泛应用。

林洋港在研究生毕业以后，进入了一个相对小众的领域，即针对有害内容的“文本识别”算法研发，旨在提供一种检测与阻断传播有害内容的方法，快速发现危机情绪与糟糕言论。该项技术在最早主要源于垃圾邮件的拦截需求，而如今已经成为各类线上社交娱乐社区中不可或缺的保障。

从事 NLP 算法研究工作 10 年以上，林洋港持续跟踪与服务文本理解与分类，聚焦如何对抗文本中的不良有害内容。随着内容安全检测的需求愈加明显，林洋港指导的 NLP 算法团队逐渐壮大，发展成多人团队。团队在有害内容变种智能识别、形近字库构建、机器情绪理解等方面的经验颇丰，将复杂晦涩的 NLP 技术转化为实用的产品化输出。

不少人在网络争论中遭遇过脏话，或生气反击，或自我消化。赛博空间之中高度自由，发泄情绪的谩骂之词不堪入耳。这些话语在未被人类看到之前就被拦截，避免造成心理创伤，那是因为 NLP 技术在暗中起了作用，为各大平台执行文本审核。

文本审核依据管控建议，检测或识别文本中的有害信息，如关于谩骂的问题、关于暴恐的问题等，以提高定位的准确性，这种问题发现就属于文本审核的范畴。

林洋港谈到，借助通用的自然语言模型，团队让机器“增量”式自我学习，以达到识别的目标效果。主要目标是通过捕获词汇、句法和语义信息，从而将自由文本转换为结构化数据。简单而言可以归纳为几个步骤：

一是，文本预处理，简化和准备文本以供进一步分析。二是，特征生成，将文本转换为适合不同计算分析方法使用的结构化数据表示，三是，观察数据上的特征，选择一个合适的算法模型，对模型的结构做出调整。四是，为了提升审核速度，还需要使用模型压缩的技术，把模型变小，满足线上检测的实时性要求。

业务落地的过程看似简单，但难题有很多。面临诸如“数据不平衡削弱计算机的挑选分类能力”、“强对抗性迫使算法也得不停升级”、“文本短导致语义理解偏差”等诸多挑战，满足不了有害内容定位的超高准确率要求。

近年来，随着底层技术的持续突破，以 BERT 为代表的预训练语言模型及模型蒸馏技术等发展相继出现，NLP 技术迎来新的“春天”。“过去难以完成的事情，现在迎刃而解。”林洋港表示，以审核任务来说，训练算法模型所需的标注数据在减少。为了让计算机学会判断同一类有害内容问题，过去将耗费近 10 万的数据才能达到一个理想的效果，基于预训练语言模型 fine-tune 技术如今仅需要几千上万的数据即可完成模型的学习。

与此同时，结合模型压缩技术，如剪枝、量化、蒸馏等方法，采取更为轻量级的深度学习模型，在维持原有精度的前提下，将计算机的任务执行时间进一步缩短。

这种速度让人类望洋兴叹。人类每分钟可阅读 500 字，挑选出问题内容则需要更长时间，而机器的文字处理速度比这快很多倍，毫秒之间就可检测完毕近百字。

在易盾，本文审核的实现形式多样，设置了规则系统、特征库匹配、文本分类、高频检测（短时间观察相似内容的数量）、用户画像（发布者的账号风险）等环节对文本数据做出评估。

“将算法应用到业务中与学术界研究的关注点不同，学术界偏通用技术的研究，较少关注‘有害内容识别’这一方向。”他表示，学术界的资料提供了一些启发，但更重要的是，算法工程师们根据对业务需求的理解，在底层技术研发上摸索解决之道。

林洋港给团队设定了一个目标，始终关注对于他们来说有点难度、有点挑战的事情，专注机器在有害内容识别任务上的系统开发，保持效果与技术能力的领先性。

任务一：理解语言的情感

计算机不会直接推测单词的意思，但可以通过可量化指标进行打分判断，可量化的指标越多，计算机对文本执行审核就越准确。经过从不同角度研究和分析，易盾可量化的指标包括分类模型的分数、短期的频率、IP 历史、账号历史、特征库内容相似度等。

定位文本中的有害内容，最基础的做法是搭建违规关键词库，关键词库的确可以“依样画葫芦”式直接拦截谩骂，但这种方法的局限性非常明显：误伤较高，导致准确率不佳。随着对抗的升级，“有害内容识别”对于语义理解的需求程度不断上升。

“文本审核不仅仅是分辨书面文字，还包括理解这些文字的情感与意图。”林洋港介绍说，文本分类（text classification）根据正面、负面或中性这三大标签分门别类，来分析文本的上下文、语气或情绪。

任务二：边缘语言的训练

在护航企业“走出去”的过程中，易盾发现，大量用印尼语表达的不良内容突袭在线社交 APP，它们灵活多变，让产品变得乌烟瘴气，成为中国企业海外本地化的一大掣肘。

当前，全球 50 亿人通过互联网获取信息与交流，多种语言在互联网上汇聚。大多数平台对于边缘化的语言束手无策，根本没有自动化审核工具与监督机制，完成针对多种类语言的审核十分有必要。

“要想取得较好的效果，需要一个一种去做，对数据量要求较大。”林洋港表示。对于技术团队而言，目前遇到的最大的难题是，算法人员本身也不懂这个语言，“谩骂”与“暴恐”内容在机器翻译中不是很准，会影响技术员对其判断。

为此，团队中引入了熟悉不同语言的运营专家们，在通力协作下，目前取得的自然语言方面的成果较多，覆盖了 20 多种语言，不仅能够理解中文、英文、阿拉伯文、法文、俄文等国际通用语种，同时补充了边缘语言的理解，如印尼语等。

互联网上谩骂和极端主义言论的散播，已经是各国民众普遍的忧虑。少数人的滥用，由多数人承担伤痛，网络空间的可信程度急剧下降。

与现实生活一样，对数次违规发布内容的用户予以处罚，如永久禁止发言等，有利于提升网络空间治理水平。NLP 技术为对抗谩骂与暴恐内容提供了有效的手段，也让人类在色情、种族歧视、煽动性言论、无意义灌水、广告等有害文本前力量增强，在更短时间内提高调查能力，并加深对黑灰产用户和社区氛围的了解。

这也是易盾 NLP 技术团队的努力方向，利用技术构建屏障，将侮辱谩骂、网络霸凌、极端恐怖主义等现象的影响降低到最小程度。

分享到

人身攻击和极端主义加速，NLP技术挺身而出

热门标签

热门文章

网易易盾朱浩齐：共同构建未成年人网络空间治理新模式

创新行为式验证码：领先的安全验证技术

《2023年度游戏安全观察与实践报告》重磅发布！

一款「安全」的SLG游戏应该是什么样？

网易易盾再次荣膺2023中国AIGC创新企业榜