LightGBM分类模板 - xuelang-group/suanpan-docs GitHub Wiki
LightGBM原理
LightGBM是一个用于梯度增强机器学习的开源框架。默认情况下,LightGBM将训练一个梯度增强决策树(GBDT),但它也支持随机森林、DART回归树和基于梯度的单边抽样(Goss)。 该框架速度快,专为分布式训练设计。它支持大规模的数据集和GPU上的训练。在许多情况下,LightGBM被发现比XGBoost更精确、更快,尽管这与需要解决的问题有关。 LightGBM和XGBoost都得到了广泛的应用,并提供了高度优化的、可伸缩的和快速的梯度增强机(GBMs)实现。
Gradient Boosting原理
在考虑集成学习时,主要有两种方法:bagging和boosting。bagging包括对许多独立模型的训练,并通过某种形式的聚合(平均、投票等)将它们的预测组合起来。bagging的一个例子是随机森林。 boosting按顺序训练模型,其中每个模型都从前一个模型的错误中学习。从一个弱基模型开始,对模型进行迭代训练,每个模型都加入到前一个模型的预测中,从而产生一个较强的整体预测。
模板流程
参数设置
数据拆分(CSV):数据1比重:0.2 数据2比重:0.8
K折交叉验证(KFold):nSplits:3
网格搜索(GridSearchCV):Param Grid:{"n_estimators":[100,200,500,1000]} 记分函数:accuracy
字段选择
特征字段: radius_mean,texture_mean,perimeter_mean,area,smoothness_mean,compactness_mean,concavity_mean,concave_points_mean,symmetry_mean,fractal_dimension_mean,radius_se,texture_se,perimeter_se,area_se,smoothness_se,compactness_se,concavity_se,concave_points_se,symmetry_se,fractal_dimension_se,radius_worst,texture_worst,perimeter_worst,area_worst,smoothness_worst,compactness_worst,concavity_worst,concave_points_worst,symmetry_worst,fractal_dimension_worst
标识字段: cancer
参数设置与字段选择根据不同的数据集灵活设置