中文站

如何查询过滤网站上违禁词?

违禁词过滤通常包括以下几个方面的工作:

1.首先要进行用户画像,区分网站正常用户、新人(注册7天内的用户)和有违规记录的用户。

通过大量数据研究发现,注册不久就发布内容的用户发布广告的比例较高,并存在机器刷广告的行为。有过违禁记录的用户,又被称为“高危用户”,往往网站的惩罚解除不久,又开始“胡作非为”,因此针对这一人群需要做重点监督。

2.建立并完善违禁词词库,将违禁词分级为轻微违禁词和严重违禁词,当有用户发出带有违禁词帖子时,系统自动监测违禁词的级别,如果是轻微违禁词,则要过滤给人工审核进行判断,以防止误判,而带有严重违禁词的帖子则自动删除或阻止发布。

3.重复发帖及回复系统自动阻止或提醒,对于频繁发布重复内容及高频次回复用户重点监测,一旦发现其发布恶意广告的行为,在处理时也要委婉一点,比如提示网络不好,请重试等,防止错判。

4.建立风险名单库识别不良用户,基于长期的业务数据和反作弊数据,可以积累出各类风险名单库,比如:手机号、设备、账号等等。风险名单库主要包含黑名单和灰名单,网易易盾通过多年和恶意广告的斗争,已经积累了千万级的风险名单库。

5.完善举报、反馈机制,借助网站用户的力量,在一定程度上降低垃圾信息的危害。


网易易盾提供专业的网站内容检测服务,基于海量样本数据,智能策略定制,高效过滤色情、广告、涉政、暴恐等多类垃圾文字及敏感词、违禁变种,点击免费体验违禁识别