from tool_box import tool
from bin_method import best_bin as bb
feature_select(data_rdd, black_flag="label", is_round=False, piece=5, min_interval=2, p_value=0.05, rate=0.05, min_bin_size=50,
not_in_list=["None", "NaN", "NA", "nan", None,
"-999", "-999.0", -999, "-1111", "-1111.0", -1111],
bin_method="top_down", cut_method='cut_ks', combine_method='combine_iv', corr=False, corr_method="pearson", mic=False,
AR=False, gini=False, pearson_chi2=False, likelihood_ratio=False, F_test=False)
通过单一阈值和iv筛选指标
Parameter Description
---------------------
data_rdd : pyspark.rdd.PipelinedRDD
spark dataframe经过trans_rdd转换过的数据集
black_flag : string,(default="label")
y标签列名称
is_round : boolean,(default=False)
是否需要有业务含义的分bin方法
piece : int,(default=5)
每个特征分bin个数
rate : float,(default=0.05)
每bin最小样本数占比
min_bin_size : int,(default=50)
每bin最小样本数
not_in_list : list,(default=["None", "NaN", "NA", "nan",None, "-999", "-999.0", -999,"-1111","-1111.0",-1111])
空值列表,在列表中的值会被认为空值
bin_method : string,(default="top_down")
分bin方法,可以选择top_down(ks,gini,ig)或者down_top(卡方)
cut_method : string,(default="cut_ks")
分bin切分方法,还可以是"cut_gini","cut_ig",只在bin_method="top_down"是生效
combine_method : string,(default="combine_iv")
分bin聚合方法,还可以是"combine_gini","combine_ig",只在bin_method="top_down"是生效
corr : boolean,(default=False)
是否计算相关性
corr_method : string,(default="pearson")
计算相关性方法,仅在corr为True时生效
mic : boolean,(default=False)
是否计算互信息值,这个算起来会有点慢的哦,考虑好是不是要用哦
AR : boolean,(default=False)
是否计算AR值
gini : boolean,(default=False)
是否计算gini值
pearson_chi2 : boolean,(default=False)
是否计算皮尔逊卡方检验的p-value
likelihood_ratio : boolean,(default=False)
是否计算似然比检验的p-value
F_test : boolean,(default=False)
是否计算F检验的p-value
Return
------
index_iv : 一个pandas dataframe 包括了每个特征的变量名,单一阈值和iv