《中国信息安全》刊登网易易盾朱浩齐长文：技术驱动网络暴力治理

【行业资讯】2024-12-30

分享到

近日，《中国信息安全》杂志2024年第9期刊登了网易易盾总经理朱浩齐的专题文章《技术驱动网络暴力治理》。

《中国信息安全》杂志是由中国信息安全测评中心主办的信息安全权威媒体，旨在宣传国家信息安全政策，普及信息安全知识，提高全民信息安全意识，强化国家信息安全保障，以及推动信息安全技术创新、管理创新和应用创新。

以下转载全文，分享关于网络暴力的易盾观点。

文 | 网易易盾总经理朱浩齐

随着网络技术的不断发展，网络空间在为公众的工作和生活带来便利与愉悦的同时，也滋生了言语攻击、恶意诽谤及人肉搜索等形式的网络暴力现象，严重侵犯了公民的合法权益。在某些极端情况下甚至导致了悲剧的发生。网络暴力不仅威胁到公民的个人隐私安全，破坏了良好的网络生态，还对整个社会文明构成了前所未有的挑战。因此，如何有效应对这一全球性问题已成为各国政府和社会各界共同关注的焦点。

围绕党的二十大提出的“健全网络综合治理体系，推动形成良好网络生态”的总体要求，我国在网络空间治理方面始终处于探索前沿。在法制化建设层面，随着国家网信办、公安部等部门联合发布《网络暴力信息治理规定》（以下简称《规定》），标志着我国网络暴力治理由阶段性专项转向常态化治理，为治理网络暴力奠定了坚实的法制基础。在技术治理层面，人工智能等技术的迅猛发展为网络信息内容治理、防控结合提供了新的技术路径。在社会实践层面，各互联网公司持续加大网络暴力治理专项投入力度，致力于保护用户合法权益及维护社会公共利益。通过这些努力，在政策、技术和实践层面，我们正在逐步构建并完善一套适合中国国情的网络暴力治理模式。

01 网络暴力的基本定义与成因分析

《规定》第三十二条将“网络暴力信息”定义为：“通过网络以文本、图像、音频、视频等形式对个人集中发布的，含有侮辱谩骂、造谣诽谤、煽动仇恨、威逼胁迫、侵犯隐私，以及影响身心健康的指责嘲讽、贬低歧视等内容的违法和不良信息。”此外，相关定义还有网络欺凌。网络欺凌集中适用于未成年人，在《未成年人保护法》中被表述为“通过网络以文字、图片、音视频等形式，对未成年人实施侮辱、诽谤、威胁或者恶意损害形象等”的行为，体现了对未成年人特殊保护的前置认定。

有学者指出，国内外对网络暴力的理解和界定存在一定差异，这反映了不同文化背景下应对策略的不同侧重。国内更倾向于关注网络暴力带来的道德伦理问题，强调对个人尊严与心理健康的影响。而国外的定义则更侧重于网络暴力的技术性特征，将其视为一种“持续利用信息技术恐吓、欺凌、骚扰受害者的行为”。

谈及网络暴力的特点，可以看到，网络暴力是传统媒体时代媒介失范现象在数字时代的延续，且具有更强的技术性。在构成形式上，网络暴力事件总是围绕正义、公平、平等与否等伦理基本认知展开，具有更明确的道德性。在发生机制上，网络暴力往往突发性显现，无需信息铺垫与证伪，时空上具有唯一性。

矛盾存在于一切事物的发展过程中。在数字时代，互联网的技术属性导致了网络暴力的出现。数字时代网络暴力的成因可以通过技术可供性理论进行解释。新型网络暴力表现形式如“扒坟”“挂人”和“捧杀”，正是互联网技术可供性被反向利用的结果。社交媒体的公开性、可追溯性和可检索性使得网络暴力者得以搜集攻击他人的材料。主流社交媒体拥有大量用户，因此，网络暴力者发布的信息有着广阔的社会接触面，进一步扩大了网络暴力的影响范围。社交媒体平台的话题标签技术和算法技术也进一步助推了网络暴力的产生和扩散。以网络社交平台帖文内容为例，网络暴力者通过在帖文中增加话题标签，激发更多的网络围观与讨论。煽动性言论、带有一定热度的话题标签的网络暴力帖文，契合了算法偏好的变量，从而获得更多流量，导致网络暴力的进一步扩散。因此，网络暴力往往不是有协调的团体行动，当帖文被算法赋予高流量权重时，几个人发起的网络暴力也可能演变成恶劣影响事件。个体的情绪在互联网媒介环境中被放大，最终对受害者造成难以想象的伤害。这是在数字时代由技术进步引发的典型社会问题，也是各互联网平台治理的核心工作之一。

02 网络暴力突出问题与治理现状

国内外网络暴力典型案件层出不穷，民众对于加强网络暴力治理的呼声日益高涨。纵观国内外网络治理的难点，网络暴力都是一个亟待解决的严峻问题。

数字技术使得网络暴力的侵权责任认定更为困难。互联网信息的可隐匿性、可删除性和可更改性导致网络暴力的取证和立案困难。自媒体为了吸引流量谋取经济利益，推波助澜网络暴力行为，加剧了网络暴力对个体的伤害。受害者在维权中处于不利地位，使得网络施暴者更加有恃无恐，这不仅侵犯了个人的合法权益，还对社会文明与网络生态造成了负面影响。

针对网络暴力问题，在国家治理层面，我国网络暴力法治体系不断发展完善。在立法方面，有《民法典》《刑法》《治安管理处罚法》和《网络安全法》等法律及相关司法解释，对利用网络侵害人身权益、实施诽谤等行为的民刑事法律后果做出明确规定，从司法层面保障网络暴力受害人的合法权益。同时，通过出台以《规定》为代表的一系列行政规章和规范性文件，细化责任主体与具体保障监管措施，为打击网络暴力的执法提供有力支撑，并对互联网平台的规范经营提出了更明确的治理要求。

在平台治理层面，各主流平台也采取了一系列措施来防治网络暴力，包括为受害者提供一键防网暴和互动权限管理等隐私设置，通过一键取证功能协助留存证据；对于疑似施暴者，平台通过站内信、视频推送、弹窗和交互式语音提醒其注意言论，并在必要时依据规范进行处罚；在易出现网络暴力的评论区配置提醒浮条等引导功能；增加实时接收和处理网络暴力举报的入口，开通投诉电话和举报邮箱。

海外同样存在层出不穷的网络暴力事件及相应治理。在全球法律法规层面，美国作为全球互联网发展最为发达的地区，网络暴力问题暴露得也更早。2006 年梅根·梅尔网络暴力致死案发后美国社会舆论震动，2009 年出台《梅根·梅尔网络欺凌预防法》（Megan Meier Cyberbullying Prevention Act），在联邦层面对网络暴力行为予以规制。随着网络暴力由谩骂、诋毁演化出侵犯个人隐私信息等新形式，欧盟《数字服务法案》要求平台运营者采取积极措施来治理网络暴力，强调透明度和责任性，《通用数据保护条例》赋予用户“被遗忘权”，要求搜索引擎删除不实内容；澳大利亚《2021 网络安全法案》关注成年人网络暴力的同时将未成年人网络欺凌的监管范围扩展至社交媒体以外，赋予网络安全专员办公室强制删除上述非法内容的权力。2022 年，日本正式实施刑法修改条款，严惩网络诽谤和中伤行为。

在社会与平台治理层面，一方面，社会组织发挥着重要作用。如加拿大应对网络暴力和保护青少年安全的相关项目，囊括举报热线和文本咨询服务，利用技术帮助青少年阻止自身色情图片或视频传播等。另一方面，互联网平台作为网络暴力信息的主要传播渠道，综合运用多种手段进行治理。例如，YouTube 其结合使用机器学习技术和人力来大规模检测有问题的内容，将机器删除违规内容与人工审核其他标记内容相结合。

03 网络暴力治理的发展趋势与可行方案

随着以 AIGC 为代表的人工智能技术在网络信息领域的广泛应用，互联网的信息数量呈现出新一轮爆炸趋势。一方面，民众在内容消费层面获得了更大的满足；另一方面，网络施暴者利用新技术获得了更加强大的作案工具，真假信息混杂带来的伤害更深。可以预见，网络暴力治理会不断升级技术对抗，新问题也将不断涌现。

因此，应协同政策标准、技术研究和应用实践，把政府、科研、企业和网民等力量团结起来，以构建一个更加清朗、健康、和谐的网络空间。在未来的网络暴力治理中，应重点围绕以下三个方面展开。

一是倡导政企联动的精细化治理标准。一方面，完善网络暴力治理领域的标准规范是首要任务。近年来，我国网络主管部门已先后出台网络暴力相关法律法规，制度体系的“四梁八柱”已基本构建。另一方面，相关社会组织，如各地互联网协会等已面向广大网民开展了网络文明建设的倡议宣传；主流互联网平台也通过产品使用规范、企业倡议活动等形式，约束和引导用户文明、理性上网行为。政企联动共同维护网络空间秩序，促进网络环境的健康发展。

在此基础上，明确网络暴力治理标准可大幅提升治理效率和效果。事实上，多数行业的头部企业都有较为适应自身业务特点的执行标准，但缺乏将其实践经验上升为行业统一标准的机制。同时，为了适应高速技术革新和产品迭代，标准制定和落实还需要有更加高效的机制。可以尝试通过充分发挥“行政单位指导+行业协会协调+头部行业企业参与”的策略来实现标准落地小范围的“敏捷迭代”。以娱乐社交场景为例：行业协会牵头主流娱乐社交平台，在主管部门的指导下，把平台优秀经验整合成泛化的网络暴力信息分类标准，形成特征样本库和行业策略集，提升行业整体治理水平，降低治理成本。同时，这些标准将作为主管部门对企业日常管理的判断依据，使企业自主或第三方服务建设合规体系更加顺利，不断扩充应用场景，构建从标准到管理的良性循环。

二是发挥新一代技术在网络暴力治理中的作用，探索新的实现路径。在政策和标准明确后，使用新技术为安全治理赋能：“利用魔法打败魔法，利用技术对抗技术”。以易盾技术实践为例，在网络暴力治理方面的一些尝试包括以下四个方面。

其一，小样本快速识别技术。网络暴力内容变化快，形式多样。面对突发事件和舆情，往往只能获取有限的样本数据，且没有足够时间进行传统的模型训练和迭代。为此，易盾研发了基于小样本知识学习和大模型快速微调技术。该技术能够将大模型的通用能力与领域细粒度能力快速对齐，实现快速定制细分领域的识别能力，从而提升内容风控领域在垂直场景下的技术效果与效率。例如，在特定人物的人脸识别上，通过小样本识别技术，只需要数十张图片，结合大模型的服饰、旗帜、标志识别等能力，就能让内容安全检测模型在网络暴力事件中具备良好的识别能力。

其二，通用认知推理技术。网络应用生态及场景复杂多样，一刀切的检测方法会造成巨大误判，干扰平台和用户正常使用。例如，在文本情感分析中，传统算法只做了文字本身含义等信息的感知层识别。而最新的认知推理技术需考虑目标物体以外的综合信息，比如把人比喻成“扫把星”或“狗”的隐喻认知。易盾基于知识图谱和多模态大模型技术，将大模型的通用知识与小模型的领域知识结合，进行多模态的综合决策，从而将内容风控中网络暴力行为的感知识别改进为认知逻辑推理，实现通用知识注入的综合内容防控，提升了识别效果与可解释性，提供更加复杂的语义理解能力。

其三，基于提示词的细化分类技术。前文所述的针对特定“小范围”场景实现标准的敏捷迭代，意味着需要有相应的技术手段对各种细分内容进行识别分类。例如，在帖文评论场景中，中文的丰富内涵及场景化暗喻会引发不同阅读者的联想。高级黑、说反话、阴阳怪气等场景是当前面临的识别难题。传统做法是根据不同标准要求定制不同的识别模型来检测，这不仅但费时费力，效果也往往差强人意。得益于大模型技术的应用，易盾研发的指令理解和思维链学习技术结合数据策略积累，可以将不同的标准、对应的样例以及判断逻辑，以图像和文本多模态输入的方式作为指令，用少量模型即可实现不同的细节标准的检测，从而以更加便捷和可理解的方式适配不同的标准，细化分级、精准防控与差异化防控。

其四，推理分层加速技术。确保技术可行是实现网络暴力治理的前提保障。强大的大模型能力需要惊人的算力支持。在模型训练阶段，通过堆数据和算力实现智能效果几乎是业界共识。然而，在推理应用阶段，如果无法实现极低成本的计算，面对海量的互联网内容将会面临“力不从心”和高昂成本的尴尬局面。在实践中，易盾通过对模型蒸馏压缩、算子改造、动态批处理规模适配、GPU 分片等技术，实现了推理成本的持续下降，平均每年可以降低 50% 的算力成本。同时，易盾还通过把模型按能力和大小分层分组，并将一定的检测能力植入终端设备，实现更进一步的效能提升。例如，在手机端实现音频的特征提取任务，极大地降低了数据传输的带宽成本。总之，在新技术的浪潮下，确保技术创新和领先，创造高效实用的防御工具，是实现网络安全的重要手段。

三是落地网络平台内容治理实践。作为网络内容治理标准和技术方案的承载主体，网络平台在整个内容治理环节中占据中心位置。各国的网络内容治理相关法律法规顺应网络技术特点，将平台作为责任主体进行规范和管理。然而，少数平台负责人仍缺乏这种认知，只愿享受网络技术带来的高流量和商业潜力，却不愿意承担网络平台对内容传播和管理的责任，甚至纵容放大各种道德引战等内容的传播以吸引流量。当然，现实中更多的情况是，平台有意愿治理却苦于没有好的方法和手段，达不到行业合规的标准。在人工智能生成内容（AIGC）时代，数据量规模巨大，内容治理不可能指望通过传统人力完成。由于各平台自身规模和技术实力的差异，也无法在短时间内应用新技术实现自动化治理。

对此，市场上有一些专业机构提供服务。然而，在实践过程中，仍然存在服务能力标准化和平台治理定制化要求之间的矛盾。作为内容治理的责任主体，平台虽然可以在技术能力和合规标准上采用第三方服务，但更需在功能设计和业务逻辑上充分考虑网络生态治理问题。平台对内容的生产和传播具有直接控制权限，通过设计一些基本的安全功能，就可以大幅降低风险内容的产生和传播。例如，禁止陌生人群发私信；对用户账户进行不同级别的身份核验，根据级别差异设计传播范围；对账户设计警告、禁言、封禁等处置措施，对生成内容设计完整的举报机制；对重点版块和高流量版块增加监控等。此外，还应特别关注特殊群体的权益保护，如独立建立互联网内容的未成年人信息审核标准和产品的未成年人模式，形成未成年人“特定用户——特殊算法——特别标准”的链路闭环，向未成年人展示更为积极向上的网络信息内容，消灭“饭圈”文化和“网络厕所”等恶劣网络行为的滋生土壤。

综上所述，通过标准先行、技术支撑和实践落地，形成和发挥网络暴力多元治理合力，充分利用当前人工智能技术发展的契机，驱动互联网由“管”到“治”的根本转变。最终，使网络暴力防于未然、止于微末，营造一个向上向善、风清气正、良性发展的网络空间。

分享到

《中国信息安全》刊登网易易盾朱浩齐长文：技术驱动网络暴力治理

热门标签

热门文章

社交App交友“防渣”指南

网易易盾接入DeepSeek，数字内容安全“智”理能力全面升级

2024年度游戏安全报告发布：200+亿次风险检测背后的攻防全景

“AI换脸”骗过人脸识别？黑产攻击新手段应如何防御？

网易易盾亮相FCIS 2024网络安全创新大会，分享AIGC内容安全体系建设经验