线上:0.46343(拉格朗日亲测反馈),本人因提交次数宝贵没有测试本baseline。
该baseline是我目前最好分数的阉割版,所谓阉割就是该baseline只使用了官方提供的aum点资产数据进行特征工程,所以大家只要拓展特征维度很容易上分,甚至很快就可以超越我。
拿到题目,无论什么比赛必须得理解清楚赛题背景和目的,其次是搞清楚label表示的含义。因此我在交流群问的第一个问题就是label的含义,大佬们也是非常热情给出了官方的解答,-1 下降,0维稳, 1上升。
结合题目的目的是预测客户的资金变动,自然而然想到最重要的数据就是aum点资产数据。因此自己的第一个baseline也是基于此完成的。
所谓变动,即变化,因此资产的特征必须围绕其展开。有季度内的变化和季度间的变化,因为自己的一个小失误发现当使用3,4季度的数据预测3季度的标签的时候,Kappa值非常高(穿越),这其实也就说明了季度间的特征是非常重要的,同时也表明很多用户的标签的来源是季度交替间产生的资产流动变化导致的。所以仅使用当季度的资产变化并不能有很好的效果,这个信息对打标三季度未打标的用户有非常大的作用。
1:对包含连续两季度点资产数据的用户,使用上一季度的标签对未打标的用户进行预测,选取置信度高的用户参与训练;(未尝试)
2:使用加类别权重的训练方式进行训练(已尝试)
3:挖掘规则(尝试中)