季军方案分享
在 2022 世界人工智能创新大赛(Artificial Intelligence World Innovations,简称 AIWIN)春季“发债企业的违约风险预警竞赛”赛题中,网易智企旗下易盾 AI 实验室数据挖掘团队以卓越的技术优势,经过初赛、复赛、终选答辩,一路过关斩将,从 731 支参赛队伍中脱颖而出,获得“企业违约风险预测”赛道的季军,F1-Score 达到 0.7257,在精准率(precision)和召回率(recall)上表现出色。
本次大赛中,易盾团队利用机器学习、深度学习等方法训练一个预测算法模型:基于“风险画像技术”的 Two-Stage 企业风险识别算法。
该模型可以学习发债企业的相关信息,以预测发债企业未来一段时间内是否存在违约风险。易盾团队从数据集中海量的发债企业相关信息进行挖掘,包括股东信息、对外投资信息以及舆情信息等,从中提取有效的特征,并进行风险预测。
在实际金融市场中,该技术有利于开展市场监管,从庞大的交易行为中挖掘主体关系和深层信息,分析这些交易主体是否正在通过相互交易来提升营业收入或达成其他非法目的。
一、赛题理解
本赛题任务是利用机器学习、深度学习等方法训练一个预测模型,该模型可以学习发债企业的相关信息,以预测发债企业未来一段时间内是否存在违约风险,是一个典型的时序二分预测任务。
二、发债违约企业现状
1.新增违约主体总体呈逐年增长
2020 年,我国债券市场新增 30 家违约发行人,共涉及到期违约债券 97 期,到期违约金额合计约 1002.55 亿元,新增违约发行人家数、涉及到期违约债券期数均较 2019 年(49 家,140 期)有所下降,但到期违约金额较 2019 年(914.50 亿元)有所上升,如图 1 所示。
图1 资料来源:联合资信COS系统 2012 年-2020 年我国债券市场新增违约主体及涉及到期违约债券情况
2.新增违约国企数量呈增长趋势
从违约率来看,2020 年我国公募债券市场民营企业违约率仍然最高,为 2.69%,但较上年(4.82%)大幅下降。国有企业违约率为 0.62%,较上年(0.37%)有所上升。从近七年公募债券市场平均违约率来看,民营企业一直是我国债券市场的违约“高发地”,如图 2 所示。
图2 资料来源:联合资信 COS 系统 2019-2020 我国债券市场新增违约主体企业性质分布
注:外围为 2020 年违约主体分布,内围为 2019 违约主体分布
3.新增违约主体主要集中在经济大省
2020 年,我国债券市场新增违约主体主要分布在北京(6 家)和广东(5 家),辽宁省次之(3 家),且上述地区违约主体家数连续两年均在 3 家以上,其余省份违约较少。从新增违约主体债券到期违约规模来看,北京(489.38 亿元)、辽宁(186.65 亿元)、福建(116.13 亿元)和广东(88.10 亿元)地区合计违约金额占全部新增违约主体到期违约规模 85% 以上,如图 3 所示。
图3 资料来源:联合资信 COS 系统 2019-2020 我国债券市场新增违约主体地区分布
三、特征线索挖掘
基于当前发债违约企业存在的同行业共振传导、同区域共振传导、关联关系共振传导和类似风险共振传导等共性,可将这四点作为特征线索构建特征工程。
1 同行业共振传导
由于同一行业的企业具有高度趋同的行业景气度、商业模式和财务特征以及政策环境,一旦行业内的某一企业发生风险,同行业内的其他企业也容易受到波及,导致共振风险,这也是最为普遍、常见的共振路径之一。
2 同区域共振传导
同区域共振传导,顾名思义,指区域内某个企业的违约,引发市场对于同区域内其他企业的担忧,该类共振风险主要源于市场对于区域信用环境的担忧,其背后隐含着对该区域地方政府维护区域金融环境的能力和意愿的担忧。
3 关联关系共振传导
常见的共振传导方式之一,主要是指因与违约企业存在股权关系、业务往来、担保关系等而引致的风险。
4 类似风险共振传导
与违约企业在商业模式、股权模式、战略发展模式、运营模式等方面存在类似的风险特征,从而导致共振风险。究其根本,该类风险本质上是相关模式存在一定瑕疵,经不起市场检验,从而加速了其风险暴露。
四、特征工程
特征工程主要围绕上一章的特征线索展开,分别挖掘六大类特征,具体如下图所示。
图4 特征工程构建图
五、模型构建及结果融合
本次建模采用一种基于风险画像技术的 Two-Stage 企业风险识别模型。模型构建阶段则是沿用了风险画像业务实践中种子关联扩散的思想,达到“先求准再求全”的目标。在 Stage1 阶段利用 Xgboost、LightGBM、CatBoost 构建集成学习模型群,通过平均法融合各个基模型的学习能力,用于计算企业综合违约概率,精准识别高风险的违约企业。
Stage2 利用股权上下游关联关系、网络舆情内容构建企业主体之间的关系图网络,通过半监督学习算法对风险种子标签进行传播,进一步召回与 Stage1 违约企业存在强关联的潜在违约企业。
除了能挖掘违约主体,该建模方式还通过图网络计算的方法,挖掘在拓扑关系上存在异常的关联团伙主体,更全面地发挥数据价值挖掘违约主体以及潜在团伙,在保证模型高精准的同时提升召回率。
图5 Two-Stage 企业风险识别模型架构图
最终该模型在复赛得分 F1-Score 达到 0.7257,模型效果较好,荣获本次本次季军。
总结
本次比赛从初赛到复赛阶段,易盾的排名就一直处于 Top10 以内,主要依靠以下两点:
1)通过特征线索,快速准确地构建特征工程,刻画企业风险画像;
2)构建一种基于风险画像技术的 Two-Stage 企业风险识别模型,召回拓扑关系上存在传播风险的嫌疑企业。