online_cor - shuiwanghuohuo/scorecard_wiki GitHub Wiki

corr_func(woe_data, filter_evidence, black_flag="label", method="pearson", coef=0.9)
计算指标间的相关性,相关性大于阈值时,剔除iv低的那个变量

Parameter Description
---------------------
woe_data : pyspark.rdd.PipelinedRDD
    woe转换后的rdd

filter_evidence : pandas.core.frame.DataFrame
    feature_select函数产生的结果(筛选你需要的列),会将这些列转换为woe

black_flag : string,(default="label")
    标签列列名

method : string,(default="pearson")
    计算相关性方法,默认"pearson",也可以是"spearman"

coef : float,(default=0.9)
    相关性阈值,当某两个指标相关性高于这个阈值时,其中一个会被剔除

Return
------
df : 带标签和指标(筛选后)的spark dataframe