On duty manual - PaddlePaddle/continuous_evaluation GitHub Wiki

背景

PaddlePaddle 代码库merge操作，会触发跑CE模型。与前一次的评价指标（如精确度、时长等）比较，超过阈值会邮件告警。这样可以尽可能早地发现PaddlePaddle框架中精度、性能相关的问题。

问题排查流程

报警邮件

目前CE模型中集成了12个模型。每个模型中都监测了一些kpi指标。如果某些指标的数据比上次差了，并且超过了阈值。就会发送邮件告警。

发件人：[email protected]
主题：[TeamCity, FAILED]
Build Paddle :: Continuous Evaluation #XXX
收件人：[email protected]

mail.png

问题来源定位

值班人点开邮件内容，点击如下红框中”#530”链接 mail_content.png

如果出现下面信息：task: xxx，passed: False，说明可能是此次代码修改有问题。 teamcity_error.png
按照告警邮件内容，联系相应的开发者进行定位 mail_content2.png
如果是其它问题，比如抛异常或者CE服务down了，联系CE同学处理。

问题排查

开发者收到通知后，排查是否和自己的代码有关。

如果有关，修复，并和值班人同步原因和进展）。
如果是其它问题，请联系CE同学处理。

problem to solve

如果定位到是某个pr的问题，联系作者同时revert pr （reviews为: guochaorong和 pr作者）
如果是某个模型导致的问题，联系模型负责人去disable 该模型（https://github.com/PaddlePaddle/paddle-ce-latest-kpis 中 '__' 开头的模型, 是disable的）
模型负责人：

1 .      mnist  郭超容
2.       object_detection  一帆
3.       image_classification 青青
4.       ocr_recognition 豪爽
5.       icnet  豪爽

1.       seq2seq  青晟
2.       language_model 超容
3.       transformer   郭晟
4.       sequence_tagging_for_ner  毅冰
5.       text_classification 毅冰

值班日志

https://github.com/PaddlePaddle/continuous_evaluation/wiki/Duty-Records

日期 (格式：YYYYMMDD, h3标题 )
值班人
出现 N 次 fail
- 问题1
  - 问题描述: xxx
  - log url: xxx
  - issue url
    - paddle框架代码问题（记录在）： https://github.com/PaddlePaddle/Paddle
    - CE 模型问题：https://github.com/PaddlePaddle/paddle-ce-latest-kpis
    - CE 框架问题：https://github.com/PaddlePaddle/continuous_evaluation
- 问题2
  - ...

附录

CE框架代码 https://github.com/PaddlePaddle/continuous_evaluation

CE模型代码： https://github.com/PaddlePaddle/paddle-ce-latest-kpis

CE web: http://18.222.34.7/ ce.png

CE teamcity: http://18.222.34.7:8080/ ce_job.png