近日,IEEE ICDM 2023图学习挑战赛决赛圆满落幕。本次比赛由蚂蚁集团与浙江大学联合主办,旨在通过深度图学习,解决社区发现和团伙挖掘等风险问题。
历时4个多月,经过初赛、复赛、决赛“三级赛制”的角逐和专家评选,网易易盾数据挖掘团队在该项任务中,以综合指标第一名的成绩击败来自海内外的数十支队伍,在Adjusted Rand Score(ARI)评价指标上达到0.5006,大幅领先第二(0.425)/三名(0.368)对手, 并于技术答辩阶段凭借方法创新性、工业应用价值等方面的优异表现,斩获大赛唯一一项一等奖。
IEEE ICDM(IEEE International Conference on Data Mining)是全球领先的数据挖掘研究会议之一,与ACM SIGKDD和SIAM SDM同列为数据挖掘领域的三大顶级国际会议。ICDM提供了一个展示原创研究成果的平台,研究范围横跨数据挖掘与人工智能领域,包括算法、软件、系统和应用程序等,吸引了大量来自相关领域的研究人员和应用程序开发人员参会。
01“社区发现”与“团伙挖掘”
本次赛题主题“社区发现”是网络科学领域的一个重要问题,其主要目标是将给定的图网络划分成若干个互相连接、内部联系紧密的社区,从而揭示网络中存在的隐藏结构和模式。图学习有助于改进社区发现的效果。
社区发现在社交网络分析、生物信息、风控、推荐等领域有着广泛的应用,例如在风控场景中,将相似用户划分为社区有利于黑产追踪。但是在实际业务中,黑产追踪和团伙挖掘任务经常面临缺乏大量的标记数据的困难,因此社区发现方法变得尤为重要。
当今社交网络和互联网的快速发展,使得网络中的节点数量和连接关系快速增长,这也导致了社区发现和团伙挖掘问题变得更加复杂和具有挑战性。在这种背景下,深度图学习开始被应用于社区发现和团伙挖掘,它能够自动学习网络中的高级表征,从而提高社区发现和团伙挖掘的效果。
将预训练模型应用于社区发现和团伙挖掘是一个相对较新颖且具有挑战性的问题。该任务的难度较大,需要更多的深入探索和研究。为了激励研究者在这个领域使用预训练模型相关技术,本次比赛提供了一个平台,旨在鼓励参赛者探索预训练模型在社区发现和团伙挖掘中的应用潜力。
02“团伙挖掘”与“数字内容风控”
在本届竞赛中,网易易盾深入研究了关系图谱中的社区向量化技术,并首创一种颇具实用价值的欺诈团伙检测算法——Risk-DCRN,通过社区预划分和社区向量化两阶段管道方法,实现了大规模图网络上稀疏标签数据条件下欺诈用户群体的高效精准识别。
区别于业界对于该问题场景的常规解决方式,该方法的contribution主要体现在针对真人作弊场景的绝佳适配,当“人机识别”被“真人”挑战时,因欺诈者与正常用户的行为边界模糊,业界所使用的图深度学习向量化算法普遍存在表征塌陷问题,导致样本Embedding倾向于映射至同一特征子空间内,限制了节点表征向量的区分能力,从而影响了最终的网络聚类性能。
为此,易盾数据挖掘团队针对该垂类场景,精心设计了一种基于对偶相关性衰减网络(Dual Correlation Reduction Netework,DCRN)的稠密子图自监督深度图聚类框架(如下图所示),应用于从社区预划分结果中进一步通过稠密风险子图向量的相似性聚类,最终准确挖掘出潜藏于庞大关系网中的346个欺诈团伙。
该框架包含2大模块:
一、Graph-Distortion:类似于在NLP领域研究者通过会随机mask掉一定比例字符,网易易盾根据相似性矩阵值小于0.1将其置0来构造掩码矩阵,使得模型从节点的不同上下文邻居中学习到更丰富的特征表达。
二、DICR(Dual Information Correlation Reduction):从样本及特征视角都考虑了相关性的降低,这样可以过滤冗余信息,在潜在空间中保留更明显的特征,从而学习到高区分度的表征,避免崩溃,提高聚类性能。
本届大赛重点聚焦于业务安全领域中最经典的团伙检测问题,恰好与网易易盾当前深耕的业务方向紧密契合。目前,大规模图深度学习及社区发现等前沿创新技术正在助力网易易盾智能风控开辟新的商业化增值空间,并于游戏、社交娱乐等行业均实现了技术成果业务转化,屡破游戏外挂工作室、社交引流诈骗团伙等群体作案风险,在客户服务层面取得了众多成功实践。网易易盾以体系化的数字内容风控技术为客户提供实现长效运营的基础安全保障。
2022世界人工智能创新大赛(AIWIN)—“企业违约风险预测”赛道季军
2023世界人工智能创新大赛(AIWIN)—“中文网页自动导航挑战赛”季军
这也是近半年来,网易易盾数据挖掘团队继AIWIN、数博会等权威赛事获奖后,再次摘得国际研究顶级会议主办的大数据与AI结合的竞赛冠军。
未来的浪潮是AI,AI的底层是大数据。网易易盾正在用一项又一项扎实的研究成果夯实AI技术在数字内容风控行业的创新应用,以为客户创造更高价值。