online_cor - shuiwanghuohuo/scorecard_wiki GitHub Wiki
corr_func(woe_data, filter_evidence, black_flag="label", method="pearson", coef=0.9)
计算指标间的相关性,相关性大于阈值时,剔除iv低的那个变量
Parameter Description
---------------------
woe_data : pyspark.rdd.PipelinedRDD
woe转换后的rdd
filter_evidence : pandas.core.frame.DataFrame
feature_select函数产生的结果(筛选你需要的列),会将这些列转换为woe
black_flag : string,(default="label")
标签列列名
method : string,(default="pearson")
计算相关性方法,默认"pearson",也可以是"spearman"
coef : float,(default=0.9)
相关性阈值,当某两个指标相关性高于这个阈值时,其中一个会被剔除
Return
------
df : 带标签和指标(筛选后)的spark dataframe