文本中敏感词识别,常规的方法是关键词识别和算法规则。
算法规则也叫规则引擎,主要就是表达式的集合,这种方式识别准确率会提高很多。但垃圾内容升级进化速度太快,复杂字符重组、特殊符号等让常规审核方法也束手无策。比如简单的裸聊二字,在垃圾内容里有非常多的演变:
文本反垃圾技术除了要识别出垃圾文本,另一方面不能还把正常内容也判定成垃圾信息,举个比较污的例子:
我们说的「口交」一词通过常规审核肯定是认定为垃圾内容,但当它出现在「港口交通」、「串口交接线」这样的语境里却是正常内容,很容易造成误判。
那如何高效识别这种复杂语义下的垃圾文本呢?这时候我们就要依托语义分析来处理辨别。语义分析是依托深度学习技术和大数据技术,机器从亿级垃圾特征库中提取和不断添加新特征,通过反复学习更有用特征,来达到对复杂语义钟垃圾内容的精确判定。
网易本身作为海量内容拥有者,以及20多年的数据和技术沉淀,为网易易盾提供了一个庞大的训练用数据库,这也是网易易盾内容安全服务所拥有的天然优势。点击免费试用网易易盾文本检测服务