On duty manual - PaddlePaddle/continuous_evaluation GitHub Wiki
背景
PaddlePaddle 代码库merge操作,会触发跑CE模型。与前一次的评价指标(如精确度、时长等)比较,超过阈值会邮件告警。 这样可以尽可能早地发现PaddlePaddle框架中精度、性能相关的问题。
问题排查流程
报警邮件
目前CE模型中集成了12个模型。每个模型中都监测了一些kpi指标。 如果某些指标的数据比上次差了,并且超过了阈值。就会发送邮件告警。
发件人:[email protected]
主题:[TeamCity, FAILED]
Build Paddle :: Continuous Evaluation #XXX
收件人:[email protected]
问题来源定位
值班人点开邮件内容,点击如下红框中”#530”链接 mail_content.png
-
如果出现下面信息:task: xxx,passed: False, 说明可能是此次代码修改有问题。 teamcity_error.png
-
按照告警邮件内容,联系相应的开发者进行定位 mail_content2.png
-
如果是其它问题,比如抛异常或者CE服务down了, 联系CE同学处理。
问题排查
开发者收到通知后,排查是否和自己的代码有关。
- 如果有关,修复,并和值班人同步原因和进展)。
- 如果是其它问题,请联系CE同学处理。
problem to solve
- 如果定位到是某个pr的问题,联系作者同时revert pr (reviews为: guochaorong和 pr作者)
- 如果是某个模型导致的问题, 联系模型负责人去disable 该模型(https://github.com/PaddlePaddle/paddle-ce-latest-kpis 中 '__' 开头的模型, 是disable的)
模型负责人:
1 . mnist 郭超容
2. object_detection 一帆
3. image_classification 青青
4. ocr_recognition 豪爽
5. icnet 豪爽
1. seq2seq 青晟
2. language_model 超容
3. transformer 郭晟
4. sequence_tagging_for_ner 毅冰
5. text_classification 毅冰
值班日志
https://github.com/PaddlePaddle/continuous_evaluation/wiki/Duty-Records
- 日期 (格式:YYYYMMDD, h3标题 )
- 值班人
- 出现 N 次 fail
- 问题1
- 问题描述: xxx
- log url: xxx
- issue url
- paddle框架代码问题(记录在): https://github.com/PaddlePaddle/Paddle
- CE 模型问题:https://github.com/PaddlePaddle/paddle-ce-latest-kpis
- CE 框架问题:https://github.com/PaddlePaddle/continuous_evaluation
- 问题2
- ...
- 问题1
附录
CE框架代码 https://github.com/PaddlePaddle/continuous_evaluation
CE模型代码: https://github.com/PaddlePaddle/paddle-ce-latest-kpis
CE web: http://18.222.34.7/ ce.png
CE teamcity: http://18.222.34.7:8080/ ce_job.png