比赛链接:http://www.dcjingsai.com/common/cmpt/西南财经大学“新网银行杯”数据科学竞赛_竞赛信息.html
31->10->6->3
这是一个风控模型比赛,特点在于数据量小,带标签数据集只有1.5W行,无标签数据集1w行,且所有feature全部加匿, 此外大部分数值型特质做了离散化处理,很难用常规方法做特征。 我们团队尝试了 缺失信息特征,特征组合,特征交叉等等,但绝大多数效果并不理想,并且过拟合严重。又尝试了半监督学习算法 也未能在线上上分(a榜最后几乎弃赛),相反baseline表现稳定,也在b榜逆袭到第10