自底向上聚合 - shuiwanghuohuo/scorecard_wiki GitHub Wiki
from bin_method import best_bin as bb
bb.chi_bin(data, col, is_round, label="label", rate=0.05,min_bin_size=50,
max_interval=5, min_interval=2, p_value=0.05,is_sample_set=np.inf,
not_in_list=["None", "NaN", "NA", "nan", None, "-999",
"-999.0", -999, "-1111", "-1111.0", -1111])
用于分bin且计算分bin后的信息,分bin方法为卡方,自底向上聚合法,先根据卡方值最小的合并,达到设定最大组数后,根据卡方检验p值是否显著判断是否合并直至达到设定最小组数
Parameter Description
---------------------
data:pandas.core.frame.DataFrame
样本集
col: string
指标列名
label: string,(default="label")
标签列名
is_round : boolean
是否需要有业务含义的分bin
rate: float, (default=0.05)
每组样本最小占比
min_bin_size: int, (default=50)
每组样本最小数
max_interval: int, (default=5)
最大分组数
min_interval : int, (default=2)
最小分组数
p_value : float,(default=0.05)
卡方检验停止p值
not_in_list: list, (default=["None", "NaN", "NA", "nan",None, "-999", "-999.0", -999,"-1111","-1111.0",-1111])
空值列表