imbalance data - chaoyue520/XGBoost GitHub Wiki
数据不均衡问题
支付反欺诈业务中,正负样本多数情况是不均衡的,即正样本(Y=0)极多,而负样本(Y=1)极少。正负样本比例常常低于百分之一或千分之一,甚至更低。这种情况下使用决策树或者基于决策树的算法就会导致预测有偏差。解决方法如下:
-
正样本抽样,负样本保留
-
成倍扩展负样本
-
调参
考虑到单机版模型机器内存的限制,通常采用解决方法为第一种,即负样本保留,正样本抽样到均衡状态时再进行建模,最后再模型应用前先对模型score进行修正,具体修正方法参考。