故障处理 - skyformaip/skyformaip GitHub Wiki

系统日志

SkyForm AIP Daemon日志存放AIP操作相关的告警或出错信息。当系统中有异常行为出现时,可以查看日志。

日志文件的位置在localtop/log(如/opt/skyformai/log)。

日志文件名的格式为:daemon.host.log,其中daemon为AIP daemon进程的名字,host为主机名。

常见问题

Daemon问题

现象:

命令systemctl status aip或service aip status显示某些daemon进程没有启动

定位:

  • 主机名是否能被解析?(执行hostname --fqdn命令必须输出正确的主机名)?

  • <daemon> log file中是否有上报的错误?

  • 主机是否能访问cb.yaml文件?

  • 防火墙是否关闭?

  • 所需的软件包是否在各个主机上已安装?

  • cb.yaml里定义的用户名是否存在并在所有主机上都一致?

cbls问题

问题1

现象:

Received request from invalid host

定位:

  • 主机是否使用多块网卡?

  • 主机是否在cb.yaml文件中定义?

  • 是否已重启AIP服务以识别新的主机?

cbsched问题

现象:

cbsched进程没有正常启动

定位:

  • cb.yaml文件中是否提示有配置错误(可看命令aip reconfigsched的输出是否报错)?

  • cbsched.<master>.log的日志文件中是否出现错误信息?

  • cbls是否运行正常?

  • 目录localtop/work是否为SkyForm AIP第一管理员所有且具有写权限?

用户的典型问题

问题1

现象:

作业运行被拒

定位:

  • 查看作业定义语法。

问题2

现象:

作业长时间等待

定位:

  • 用户是否要求了过多的资源?例如

    • 要求的内存多于主机上的内存总量

    • 定义的资源限制太过严格

  • 用户ID在作业运行主机上是否有效?

  • 用户是否请求了过多的作业执行?

  • 使用aip job info -l查看作业等待的原因。

问题3

现象:

我的作业失败了

定位:

  • 确认从执行主机上可以访问应用及其数据文件。

  • 使用aip job info -l查看上报的退出代码(exit code)。

  • 常见的exit code

    • 127 – 命令找不到

    • 128 – 命令不能执行

    • 130 – 命令被中断

⚠️ **GitHub.com Fallback** ⚠️