best_bin_select - shuiwanghuohuo/scorecard_wiki GitHub Wiki

from tool_box import tool
tool.best_bin_select(filter_evidence1, filter_evidence2, bad_rate, diff_rate=0.2, weight_dict="balance")

比较不同分箱方法,对每个变量取最好的分箱方法,选择依据根据箱的数量、iv、箱与箱之间badrate差距、单调性评估,权重由weight_dict设置

Parameter Description
---------------------
filter_evidence1 : pandas.core.frame.DataFrame
    分箱方法1产生的筛选权重

filter_evidence2 : pandas.core.frame.DataFrame
    分箱方法2产生的筛选权重

bad_rate : float
    数据集整体坏样本率

diff_rate : float,(default=0.2)
    箱与箱之间badrate差距应>=bad_rate*diff_rate,否则扣分

weight_dict : dict or string,(defaule="balance")
    各个评分项权重
    当值为"balance"时,除单调性外各项均衡,weight_dict={"bin_count": 1,
                                                   "iv": 1,
                                                   "badrate_diff": 1,
                                                   "monotonic": 999}
    也可以自定义权重,如:weight_dict={"bin_count": 1,
                                   "iv": 2,
                                   "badrate_diff": 3,
                                   "monotonic": 999}
Return
------
output : 一个pandas dataframe,筛选出了每个变量在两种分箱方法下最优的分箱方案,
结构和filter_evidence1或2相同