中文站

整治通过谐音变体传播不良信息,一站式“文本纠错”交给AI

>不利于中华文化传承传播

>干扰青少年学习汉字

>有用户借机发布违法有害信息

网络语言管理


近年来,网络平台“变体字”“谐音字”“新造词”现象持续引发社会关注。长期以来,博主、短视频 UP 主、平台用户为了躲避平台监管,在内容上采取“谐音”与“变种”等方式发布不良有害信息,例如将“人民币”说成“软妹币”,把“傻逼”谐音为“伞兵”。


值得注意的是,“变体字”“谐音字”乔装打扮,也为色情暴力内容传播提供了便利,为低俗暧昧内容的传播提供可乘之机。可见,频繁使用“变体字”“谐音字”不但扰乱了平台生态,也与汉字的正常使用南辕北辙,误导公众,显然有规范引导的必要。

不知道从什么时候开始,网络遍地黑话,但网络空间同样需要使用规范汉字。互联网平台作为新媒体,应与报刊、广播、电视等传统媒体一样使用规范汉字,且有必要及时发现不良违规内容,守护互联网内容信息生态。

具体要求

加强汉字使用的规范化、标准化、信息化势在必行。今年 1 月,中宣部出版局在京召开规范使用汉字工作座谈会,就出版、影视、媒体等领域加强用字管理。

近期,不少平台已经采取了行动。B 站呼吁广大用户,自觉遵守汉字使用规范,抵制拙劣字体、错误字形等不规范汉字表达行为,共同维护清朗网络空间。微博发布公告称,将对站内利用谐音字、变体字等“错别字”发布、传播不良信息的违规行为开展集中整治。


对于互联网平台企业而言,平台自身不仅要规范汉字使用,弘扬中华文化,且有责任要求创作者纠正错别字内容,严控错别字新增,尤其是对 UGC 内容的审核有了新的要求。在视频、文章、动态之外,评论、弹幕等二次创造内容,如出现大量错别字须酌情处理,避免干预干扰青少年学习汉字。

解决之道

随着人工智能技术的深入发展,自然语言处理(NLP)的难题不断迎刃而解,智能化助力文本纠错。汇聚多种 NLP 算法模型,结合集成策略,易盾实现了对错误文本的准确识别及纠错,并且基于海量文本内容的积累持续优化的识别效果。点击免费试用内容检测


易盾建议,自觉遵守汉字使用规范,抵制拙劣字体、错误字形等不规范汉字表达行为,不仅有利于汉字的规范化和传统文化的传承,同时也有利于打造清朗的网络空间。

提供针对字词、语法、标点、专有名词、时间日期、数值等基础错误内容的检查与纠错能力外,也具备重要人物姓名、职位搭配与职位排序等政务相关错误内容的检查与纠错能力,并将反垃圾和文本纠错能力融合,能够更全面地识别违规有害内容.


1    识别文本中的不规范应用

易错词检查:易错词检查采用了统计学习与深度学习等较为前沿的自然语言处理技术,利用多模型集成策略实现了对错误文本的识别及纠错。

语法检查:通过该能力,不仅可以实现对内容中多字、少字、字序颠倒、词序颠倒类的错误进行检查,还能够对已有拼写类错字错词检查的效果进行优化,提升了易错词检查的准确率和查全率。

时间日期检查:通过该能力,可实现对时间日期的有效性、使用的数字表述方式是否正确、格式是否标准进行检查。

数字书写规范性检查:通过该能力,可实现对罗马数字、阿拉伯数字“1”和“0”、书写是否规范、是否使用了英文代替进行检查;对使用大写字母替代罗马数字表示序号的错误进行检查。

繁简误用:该能力适用于现代文检查,可较为快速准确地识别出内容中的繁体字,并可提示繁体字对应的简体字供用户进行修改。

译文检查:通过该能力,可以较为快速、准确地识别出内容中的中文及其译文,并对译文的翻译是否错误、拼写是否错误进行检查。可检查的范围包括:专业名词术语译文、常见国家及地区、城市译文。

2    加强不良敏感内容审核

涉领土完整类敏感词检查:可实现对内容中出现的与台独、港独、藏独、疆独等以及与之相关的人物、事件进行检查。还可对内容中是否存在将我国地区与国外国家及地区并列出现的问题进行检查。

敏感事件检查:可实现对文中出现的政治敏感事件、社会敏感事件的关键词进行准确识别。

民族宗教类敏感词检查:能够实现对内容中涉及民族、宗教的敏感词进行快速识别。

不文明用语检查:能够实现对内容中出现的低俗色情、暴力恐怖、虚假广告类用语、不文明用语,以及新华社发布的禁用词进行检查。

适用场景

网易易盾深耕语义理解、方言识别、多语种识别等方向的研发,面向互联网、广电、金融等企业以及政府企事业单位等提供文本纠错解决方案,尤其在不良有害内容防范能力上具备优势效果。


互联网内容生态维护

应用场景:违规内容识别

需求点:清查使用错别字规避监管、传播不良有害信息的行为。

易盾将反垃圾和文本纠错能力进行融合,能够覆盖色情、谩骂、广告、涉政等多个大类的违规问题,守护平台内容环境。

易盾检查采用统计学习与深度学习等较为前沿的自然语言处理技术,利用多模型集成策略实现了对字词错误文本的识别及纠错,能够有效降低错别字对用户实际需求的影响。

官方文件发布

应用场景:政务公文

需求点:政务、宣传文稿的编辑和校对。

易盾针对政务公文写作场景,提供领导人姓名、职位搭配以及领导人排序等政务相关错误内容的检查与纠错能力,同时也能够针对字词、语法、标点、专有名词、时间日期、数值等基础错误内容进行检查与纠错,保障政府公信力。

新闻媒体报道

应用场景:新闻稿件

需求点:媒体、出版社稿件的编辑和校对。

易盾针对新闻稿件写作场景,提供针对字词、语法、标点、专有名词、时间日期、数值等错误内容的检查与纠错能力,避免出现技术性错误,提升稿件写作质量。

效果总结

易盾的文本纠错功能识别准确率高,通过几十个方向的文字检测,达到专业编辑纠错能力的水平,为写作者提供良好的纠错服务,在提升写作效率的同时,自觉杜绝不良信息的传播。

AI 技术将更高效、更经济、更准确地助力互联网平台有的放矢,定向整治色情、暴力等内容的谐音变体,兼顾平台内容的质量与汉字语言的规范发展。