feature selection - chaoyue520/XGBoost GitHub Wiki
- 特殊字段统一处理:如-9999,Infinity,空值,NA,Na等用统一符号标识,大小写有区分
- 离散变量合并:对于分类变量,挑选类别多的,考虑是否做合并处理,如merge表zhu_degree字段,合并同义词
- 聚类:地区聚类,如reg_city按照1线,2线标识分类,payipcity按照高危与否聚合
- Null过多的列:挑选99.5%值为null值的列,备选,是否删除
- 唯一值列:唯一值列对Y标签没有区分度,筛选并删除
- 连续变量极端值处理:对于连续变量,最大值比99.95分位数仍然大1000倍,则标记为含有极端值列
- 连续变量离散化:等距离,等分位数,手动设置cut_point,计算IV值,筛选最佳分箱
- 剔除关联字段:挑选关联字段并删除,如cuid,cardno,sessionid等
- 分类变量one-hot编码:挑选所有分类变量并做one-hot处理,对于每一个特征,如果它有m个可能值,那么经过独热编码后,就变成了m个二元特征。分
- 类器往往默认数据数据是连续的,并且是有序的
remarks: