On duty manual - PaddlePaddle/continuous_evaluation GitHub Wiki

背景

PaddlePaddle 代码库merge操作,会触发跑CE模型。与前一次的评价指标(如精确度、时长等)比较,超过阈值会邮件告警。 这样可以尽可能早地发现PaddlePaddle框架中精度、性能相关的问题。

问题排查流程

报警邮件

目前CE模型中集成了12个模型。每个模型中都监测了一些kpi指标。 如果某些指标的数据比上次差了,并且超过了阈值。就会发送邮件告警。

发件人:[email protected]
主题:[TeamCity, FAILED]
Build Paddle :: Continuous Evaluation #XXX
收件人:[email protected]

mail.png

问题来源定位

值班人点开邮件内容,点击如下红框中”#530”链接 mail_content.png

  • 如果出现下面信息:task: xxx,passed: False, 说明可能是此次代码修改有问题。 teamcity_error.png

  • 按照告警邮件内容,联系相应的开发者进行定位 mail_content2.png

  • 如果是其它问题,比如抛异常或者CE服务down了, 联系CE同学处理。

问题排查

开发者收到通知后,排查是否和自己的代码有关。

  • 如果有关,修复,并和值班人同步原因和进展)。
  • 如果是其它问题,请联系CE同学处理。

problem to solve

  1. 如果定位到是某个pr的问题,联系作者同时revert pr (reviews为: guochaorong和 pr作者)
  2. 如果是某个模型导致的问题, 联系模型负责人去disable 该模型(https://github.com/PaddlePaddle/paddle-ce-latest-kpis 中 '__' 开头的模型, 是disable的)
    模型负责人:
1 .      mnist  郭超容
2.       object_detection  一帆
3.       image_classification 青青
4.       ocr_recognition 豪爽
5.       icnet  豪爽

1.       seq2seq  青晟
2.       language_model 超容
3.       transformer   郭晟
4.       sequence_tagging_for_ner  毅冰
5.       text_classification 毅冰

值班日志

https://github.com/PaddlePaddle/continuous_evaluation/wiki/Duty-Records

附录

CE框架代码 https://github.com/PaddlePaddle/continuous_evaluation

CE模型代码: https://github.com/PaddlePaddle/paddle-ce-latest-kpis

CE web: http://18.222.34.7/ ce.png

CE teamcity: http://18.222.34.7:8080/ ce_job.png