故障处理 - skyformaip/skyformaip GitHub Wiki
SkyForm AIP Daemon日志存放AIP操作相关的告警或出错信息。当系统中有异常行为出现时,可以查看日志。
日志文件的位置在localtop/log(如/opt/skyformai/log)。
日志文件名的格式为:daemon.host.log,其中daemon为AIP daemon进程的名字,host为主机名。
现象:
命令systemctl status aip或service aip status显示某些daemon进程没有启动
定位:
-
主机名是否能被解析?(执行hostname --fqdn命令必须输出正确的主机名)?
-
<daemon> log file中是否有上报的错误?
-
主机是否能访问cb.yaml文件?
-
防火墙是否关闭?
-
所需的软件包是否在各个主机上已安装?
-
cb.yaml里定义的用户名是否存在并在所有主机上都一致?
现象:
Received request from invalid host
定位:
-
主机是否使用多块网卡?
-
主机是否在cb.yaml文件中定义?
-
是否已重启AIP服务以识别新的主机?
现象:
cbsched进程没有正常启动
定位:
-
cb.yaml文件中是否提示有配置错误(可看命令aip reconfigsched的输出是否报错)?
-
cbsched.<master>.log的日志文件中是否出现错误信息?
-
cbls是否运行正常?
-
目录localtop/work是否为SkyForm AIP第一管理员所有且具有写权限?
现象:
作业运行被拒
定位:
- 查看作业定义语法。
现象:
作业长时间等待
定位:
-
用户是否要求了过多的资源?例如
-
要求的内存多于主机上的内存总量
-
定义的资源限制太过严格
-
-
用户ID在作业运行主机上是否有效?
-
用户是否请求了过多的作业执行?
-
使用aip job info -l查看作业等待的原因。
现象:
我的作业失败了
定位:
-
确认从执行主机上可以访问应用及其数据文件。
-
使用aip job info -l查看上报的退出代码(exit code)。
-
常见的exit code
-
127 – 命令找不到
-
128 – 命令不能执行
-
130 – 命令被中断
-