常见问题排查 - FederatedAI/FATE-Flow GitHub Wiki
1. 版本历史
| 版本状态 | 创建人 | 完成日期 | 备注 |
|---|---|---|---|
| 1.0 | zhihuiwang | 2020-11-09 | 初始化 |
| 1.1 | jarviszeng | 2020-12-01 | 调整格式 |
2. 日志说明
一般来说,排查问题,需要如下几个日志:
- fate/logs/$job_id/fate_flow_schedule.log,这个是某个任务的内部调度日志
- fate/logs/$job_id/* 这些是某个任务的所有执行日志
- fate/logs/fate_flow/fate_flow_stat.log,这个是与任务无关的一些日志
- fate/logs/fate_flow/fate_flow_schedule.log,这个是所有任务的整体调度日志
- fate/logs/fate_flow/fate_flow_detect.log,这个是所有任务的整体异常探测日志
3. 离线部分
3.1 upload失败
- 检查eggroll相关服务是否异常;
3.2 提交任务(submit_job)卡住
- 检查双方rollsite服务是否被kill了
3.3 提交任务(submit_job)返回grpc异常
- 提交任务的链路: guest fate_flow -> guest rollsite -> host rollsite -> host fate_flow
- 检查上面的链路中的每个服务是否挂了,必须保证每个节点都正常运行;
- 检查路由表的配置是否正确;
3.4 dataio组件异常: not enough values to unpack (expected 2, got 1)
- 数据的分隔符和配置中的分割符不一致
3.5 任务运行时抛出异常:"Count of data_instance is 0"
- 任务中有交集组件并且交集匹配率为0,需要检查guest和host的输出数据id是否能匹配上;
4. 在线部分
4.1 推模型(load)retcode返回100,可能的原因有哪些?
- 没有部署fate-servings;
- flow没有获取到fate-servings的地址;flow读取fate-servings的地址的优先级排序: ①从zk读取;②没有打开zk的话,会从fate的服务配置文件读取,配置路径在/data/projects/fate/conf/service_conf.yaml(1.5.x) || /data/projects/fate/arch/conf/server_conf.json(1.4.x)
4.2 servings的配置在哪?怎么配?
- 1.4.x配置路径:/data/projects/fate/arch/conf/server_conf.json
{
"servers": {
"servings": ["127.0.0.1:8000"]
}
}
- 1.5.x配置路径:/data/projects/fate/conf/service_conf.yaml
servings:
hosts:
- 127.0.0.1:8000
4.3 推模型(load)retcode返回123,可能原因有哪些?
- 模型信息有误;
- 此错误码是fate-servings没有找到模型而抛出的;
4.4 绑定模型(bind)操作时提示"no service id"?
- 在bind配置中自定义service_id