注意:本方案包含了
- 1> 代码审核时提交的部分(能够直接运行)
- 2> 做线下训练时的代码(包含各种模型)
其中,线下训练时的代码内容较为丰富,由于本人今年要考研的原因,没有过多地去整理,望见谅
1.环境配置和依赖库:
- python3
- multiprocessing
- lightgbm
- tqdm
2.特征说明:
- 基本统计特征:每个column对应的的mean, max, min, var, ptp, median
- 特征总数:75 * 6 = 450
- 筛选后特征总数:40
3.数据预处理:
- 1> 把全0行数据替换为均值(当然也可以直接去掉)
- 2> 先把所有数据除以均值,然后再做相关统计(有利于产生更多有意义的特征组合)
4.训练模型:
- lightgbm
- KNN
- SVM
1.任务描述
- 利用SCADA采集的风机工况数据,对于风机未来一周内是否会发生故障进行预测
2.赛题理解
- 由于风机开裂故障多发在盛丰期,由此推断风机故障的主要原因是谐振。谐振与风机的机械特性密切相关,每个风机的共振频率都不大一致。
- 除此之外,谐振的特点是,能够在短时间内造成巨大的破坏力。因此给出的data与label并不是完全准确的对应关系(脏数据)。很有可能的情况是,事故前6天的数据都是正常的,只有最后那一段时间存在异常
3.数据简介
- train一共有25类风机共4w个样本,test没有风机编号,共8w样本
- 可以看出数据是明显聚类的(学过大物的朋友应该知道,振动其实是一个机械器件的固有属性)
- 由此可以对test的数据进行准确率较高的聚类
5.阈值的确定
- 我们借鉴了OSTU算法的思想。OSTU是用作图像二值化处理的一种算法。
- 参考OSTU算法的结果,可以更科学地确定划分阈值
关于为什么要按类确定阈值:不同的类别阈值差异较大,使用统一的阈值效果会很差
- 在utils文件夹下的CV.py文件是我用的比较舒服的一个轮子,曾经2天打下了南京赛社保欺诈的第6名。这个轮子的最大优点就是用起来非常简单
- 提供了并行提取特征的轮子DF_multiprocessing.py,并行之后大概7分钟能提完所有特征(单核大概要提45分钟的样子)
- 这几天有时间的话,我会把DeepFFM的轮子也整理一下放上来。DeepFFM与lgb模型差异性很大,传统的数据挖掘比赛,baseline用lgb跑一次,DeepFFM跑一次,融合一下,前20名基本上就没问题了
第一次写github,可能会有疏漏的地方,欢迎大家拍砖~