剖析一种短文本内容安全检测技术

【技术干货】2019-10-18

分享到

背景

数据挖掘的工程师都知道，短文本数据在我们的生活中无处不在。只要我们上网，我们都会遇到形式多样的短文本，比如文本广告、图片标题、微博、优酷视频、豆瓣评论、短信、百度知道里的提问和回答。

数据挖掘中的内容分析任务，就是要从这些海量的短文本数据中提取出精准的主题，并为后续的内容识别分类、用户建模画像、意图识别、热点话题爆发检测等任务提供良好的数据基础。

尽管在文本分析领域已经有成熟的数据挖掘方法，但是针对短文本的主题挖掘还是存在很多技术瓶颈。

传统的文本主题挖掘方法比如PLSA、LDA方法，都假设了一篇文章的内容有多种主题混合而成，并且每个主题都有各自不同的权重，占主导地位的主题就体现了一篇文章的主旨。但是，这些传统的文本建模技术提出的时候，就是针对文档层面的词语共现模式进行设计的，在运用到短文本数据的时候就遇到了严重的稀疏性问题。在长文本数据中，有足够长的文字篇幅让这些传统技术学习到词语的共现关系，主题代表性强的词能够在文本中经常出现。但是在短文中，词语的Wordcount并不能反映哪个词更重要。而且在短文本数据中，由于缺乏足够的上下文信息，这些传统技术对有多义词的鉴别能力更是大幅下降。

图1：LDA文本模型

针对业务中遇到短文本垃圾评论数据，我们采用针对二元文法概率建模的BTM模型（A Biterm Topic Model for Short Texts，www2013）对数据进行主题建模和检测，在对”色情“-“辱骂”的短文本数据的分类问题中，相比传统的LDA主题模型，得到了更好的分类效果。

传统的概率统计方法，本质上是在document层次上对词语的共现模型进行设计的。从而得到的主题，可以用这个主题相关的词语来表示。而在短文本问题中，在document的层次级别上反应的上下文信息较少，BTM模型中，直接对bi-gram的双元文法的词语共现进行建模。BTM模型中，将短文本中的每个词，看成是一定概率分布下随机生成的过程，直观地可以用概率图模型表示如下（请见图2）。在BTM中，除了假设每一条文本数据的内容是由多种主题构成的，针对二元文法中共现的词语pair，两个词语也被设计成从同一个主题下的分布生成。

图2：BTM的概率图模型

不同于传统的LDA概率模型，BTM短文本概率统计模型的数据生成过程设计如下：

图3：BTM文本模型

值得一提的是BTM模型直接对二元文法中的词语进行概率分布下的随机生成，而不是对文档document进行建模，因此文档的主题分布特征只能通过“贝叶斯定理”计算得到，

其中的

BTM模型的训练学习过程如下：

其中每个轮迭代中，共现双词pair的主题的采样公式为：

最后，迭代结束后，参数更新：

从以上模型设计可以看到BTM的学习训练过程极为高效，模型参数学习相对于传统LDA文本模型更为简单。

短文本内容检测性能测试分析

以下是业务中BTM模型在短文本评论数据上对“色情”“辱骂”主题的分类检测流程：

图4：短文本数据内容检测流程

图5所示的是业务中处理的短文本数据经过预处理过滤、分词得到的样例数据。

图6所示的是短文本数据词频分布统计，分布情况基本和推荐系统的用户、商品的大数据分布类似，集中体现出长尾的现象。

图5：短文本数据

图6：短文本数据的词频分布统计

以下是对BTM和传统LDA在短文本数据内容检测识别任务上的性能比较。

图7是对两种文本模型在“色情”VS“辱骂”分类任务上的准确率（ACC）性能比较，我们测试比较了BTM和LDA模型在不同Topic主题个数下的性能变化曲线。

图8是对两种文本模型在“色情”VS“辱骂”分类任务上的AUC性能指标的比较，我们同样测试比较了BTM和LDA模型在不同Topic主题个数下的性能变化曲线。

图9是BTM和LDA文本模型在短文本数据分类（“色情”Vs“辱骂”）上的AUC性能曲线比较。

从结果中，可以看到BTM在短文本主题学习上比传统的LDA概率文本模型有明显的优势：不仅在ACC和AUC具体指标上BTM有更好的效果，传统LDA文本模型学习到的概率主题特征在TopicNum>300之后，主题特征的同质化现象严重（短文本数据集的词稀疏性、主题稀疏性的影响较重），分类器训练和预测的时候，预测分数趋向集中，CV确定分类阈值变得困难，而且偏离0.5的中心值；实际经验情况，概率模型的先验参数需要尽可能调低，最优阈值分数确定在0.585左右。

图7：BTM与传统LDA文本模型在短文本内容主题检测上的准确率（ACC）比较

图8：BTM与传统LDA文本模型在短文本内容主题检测上的分类结果AUC性能指标的比较

图9：BTM和LDA文本模型在短文本数据分类上的AUC性能曲线比较

为了更直观的观察BTM学习到的“语义主题”，我们打印出每个主题下的最具代表性的词语进行可视化描述。如图10所示，红色方框圈出来的“语义主题”具有明显的“色情”倾向性；蓝色方框圈出来的“语义主题”具有明显的“辱骂”倾向性。在图11-1和图11-2中我们选取了其中4个“语义主题”进行词云图的可视化，可以明显看到各个“主题”的语义倾向性。

图10：BTM文本模型学习得到的“语义主题”结果

图11-1：词云图展示挖掘出来的偏辱骂的主题

图11-2：词云图展示挖掘出来的偏色情的主题

图12中我们分析了各个类别（“色情”VS“辱骂”）的随着主题个数K变化的检测性能曲线。可以看到分类检测的各个类别在精准度Precision和召回率Recall指标上都大体随着主题个数K的增加而稳定提高。

图12：各个类别检测结果随BTM主题个数K变化的性能曲线（精准度Precision、召回率Recall）

总结

从短文本数据的内容检测的分类结果上看，BTM相比于传统的LDA文本模型克服了短文本数据的稀疏性问题的影响，学习得到更高质量的“语义主题”。

在短文本数据分类任务上BTM比传统的LDA文本模型在ACC准确率和AUC性能指标上都更高更稳定，相比于LDA文本模型具有明显的优势（文/易盾实验室）。

以上，只是简单介绍了短文本内容安全检测其中一小块的技术，实际应用中，网易易盾采用了更加复杂的模型和多套组合拳。如果对内容安全检测能力要求比较高的客户，可以免费体验网易易盾高效、智能的内容安全服务。

剖析一种短文本内容安全检测技术

热门标签

热门文章

Unity 引擎高危漏洞 CVE-2025-59489 深度解析：覆盖十年版本，游戏行业迎安全大考

多模态大模型综合防御体系，构筑金融安全 “护城河”

新规将至，网易易盾「AI生成识别」破局合规焦虑

国内首个！网易易盾参编国标《生成式人工智能服务安全基本要求》，领先助力行业健康发展

2024年度游戏安全报告发布：200+亿次风险检测背后的攻防全景