机器学习Demo模板说明 - xuelang-group/suanpan-docs GitHub Wiki

机器学习模板

模板id:3900 项目总览

  • 数据上传 数据上传可以有三种方式:
    • 第一种直接上传本地数据
    • 第二种使用随机生成数据的组件

随机数据组件

  • 第三种使用一些经典数据集组件

经典数据组件

  • 数据拆分

数据拆分步骤,将之前生成或者上传的数据,按比例拆分为训练数据和测试数据,通过使用数据拆分组件完成 该组件最多可以将数据拆分为5份,在本项目中,将数据拆成2份,下图中,输入每一份数据的比重,数据拆分组件就会按比例拆分出数据 数据拆分组件参数设置

  • 模型训练

模型训练部分,会用到回归,分类或者聚类算法组件,这些组件接收一个csv的输入,输出训练完的模型,以项目中的XGBoost回归为例,首先要指定数据的字段,特征字段(features)以及标识字段(label),如下图: 字段设置

其次再填写模型的一些参数(参数都有默认值),模型在指定完字段后,即可运行,如下图:

参数设置

当数据量比较大,或者模型支持多进程的时候,可以对该节点进行调优,如下图,可以调节节点可以使用的CPU以及内存资源,默认为1 核,1G的资源

调优

  • 模型预测

模型预测组件,有两个输入,第一个是数据,第二个就是训练好的模型,输出是预测的结果(CSV形式) 与模型训练组件类似,模型预测组件同样需要指定特征字段和标识字段,同样也可以调整资源使用

  • 结果可视化

将预测的结果与实际结果可视化,形成曲线图,直观比较两者之间的差异。这一步用到了曲线图组件。 如上图,需要指定生成图像的标题,以及数值的单位,同时也需要指定曲线图的X,Y轴,Y轴的列可以指定多个,效果如下: 可视化