best_bin_select - shuiwanghuohuo/scorecard_wiki GitHub Wiki
from tool_box import tool
tool.best_bin_select(filter_evidence1, filter_evidence2, bad_rate, diff_rate=0.2, weight_dict="balance")
比较不同分箱方法,对每个变量取最好的分箱方法,选择依据根据箱的数量、iv、箱与箱之间badrate差距、单调性评估,权重由weight_dict设置
Parameter Description
---------------------
filter_evidence1 : pandas.core.frame.DataFrame
分箱方法1产生的筛选权重
filter_evidence2 : pandas.core.frame.DataFrame
分箱方法2产生的筛选权重
bad_rate : float
数据集整体坏样本率
diff_rate : float,(default=0.2)
箱与箱之间badrate差距应>=bad_rate*diff_rate,否则扣分
weight_dict : dict or string,(defaule="balance")
各个评分项权重
当值为"balance"时,除单调性外各项均衡,weight_dict={"bin_count": 1,
"iv": 1,
"badrate_diff": 1,
"monotonic": 999}
也可以自定义权重,如:weight_dict={"bin_count": 1,
"iv": 2,
"badrate_diff": 3,
"monotonic": 999}
Return
------
output : 一个pandas dataframe,筛选出了每个变量在两种分箱方法下最优的分箱方案,
结构和filter_evidence1或2相同