自底向上聚合 - shuiwanghuohuo/scorecard_wiki GitHub Wiki

from bin_method import best_bin as bb
bb.chi_bin(data, col, is_round, label="label", rate=0.05,min_bin_size=50, 
           max_interval=5, min_interval=2, p_value=0.05,is_sample_set=np.inf, 
           not_in_list=["None", "NaN", "NA", "nan", None, "-999", 
                        "-999.0", -999, "-1111", "-1111.0", -1111])

用于分bin且计算分bin后的信息,分bin方法为卡方,自底向上聚合法,先根据卡方值最小的合并,达到设定最大组数后,根据卡方检验p值是否显著判断是否合并直至达到设定最小组数

Parameter Description
---------------------
data:pandas.core.frame.DataFrame
    样本集

col: string
    指标列名

label: string,(default="label")
    标签列名

is_round : boolean
    是否需要有业务含义的分bin

rate: float, (default=0.05)
    每组样本最小占比

min_bin_size: int, (default=50)
    每组样本最小数

max_interval: int, (default=5)
    最大分组数

min_interval : int, (default=2)
    最小分组数
    
p_value : float,(default=0.05)
    卡方检验停止p值

not_in_list: list, (default=["None", "NaN", "NA", "nan",None, "-999", "-999.0", -999,"-1111","-1111.0",-1111])
    空值列表