2018 08 - PaddlePaddle/continuous_evaluation GitHub Wiki
2018 8月值班日志
注:最新的日志记录在最上面
20180831
值班人:董志宏 http://ce.paddlepaddle.org:8080/viewLog.html?tab=buildLog&buildTypeId=PaddleCe_CEBuild&buildId=1558 现象:sequence_tagging_for_ner 模型速度下降 分析:这个PR https://github.com/PaddlePaddle/Paddle/pull/13094 修复了ShareDataWith的错误接口,修复后多了一次内存拷贝,降低了速度,该模型里使用了shrinkMemoryOp。更新最新的kpi
20180830
值班人:董志宏
CE问题1:dist_resnet50失败 http://ce.paddlepaddle.org:8080/viewLog.html?buildId=1529&tab=buildLog&buildTypeId=PaddleCe_CEBuild&logTab=tail http://ce.paddlepaddle.org:8080/viewLog.html?buildId=1542&buildTypeId=PaddleCe_CEBuild&tab=buildLog
现象:CE任务build失败,找不到dist_resnet速度指标文件
分析:速度指标文件在对应CE机器上被删了,正在修复
附加分析(闵启阳): PaddleCloud随机生成错误的环境变量, 导致多机任务失败, 所以未获得指标文件, 导致报错找不到指标文件, 问题已修复
20180829
值班人:严春伟 CE问题1:resnet50_net_GPU失败 http://ce.paddlepaddle.org:8080/viewLog.html?buildId=1512&tab=buildLog&buildTypeId=PaddleCe_CEBuild&logTab=tree&filter=all#_state=86
现象:两个速度指标出现小幅下降,一个精度出现异常 分析:此task在flower数据下无法固定指标,已经交给chengduo提交pr disable相关指标;待有时间固定指标后再打开。
20180828
值班人: 郭超容
CE问题1: 昨天resnet50_net_GPU模型有随机性,修复pr:https://github.com/PaddlePaddle/paddle-ce-latest-kpis/pull/140 ,今日无新增问题
CE问题2: xxx
CI问题: 无
20180827
值班人:卫科 问题:resnet50_net_GPU和resnet50_net_CPU模型的acc和speed指标不太稳定,在0.003左右波动。
20180824
值班人:武毅
问题:revert两个pr后, CE恢复。
20180823
值班人: 武毅
问题1:青青老师pr导致 resnet50 和 vgg16 的speed下降4-5%,
revert pr:https://github.com/PaddlePaddle/Paddle/pull/12902
问题2:于洋老师pr导致几个模型speed 继续下降5%左右,
revert pr: https://github.com/PaddlePaddle/Paddle/pull/12903
20180822
值班人: 武毅
问题: 从commit开始f5d5d7b2d989e8aa5b5e637fd04318566b23f2fe,5个模型speed 下降,
20180821
值班人:武毅
问题: 多机fail:再次出现磁盘不够,disbale多机case
,可能需要修改CE 的机器docker 磁盘驱动, 改为到 overlay2
20180820
值班人:武毅
问题1: CE 多机fail: 磁盘不够,重新设置dockerd 配置重启,解决
问题2: 继续失败, 问题:acc的KPI 阈值超过。 修改acc基数
20180817
值班人:邱学忠
问题:无
20180816
值班人:曾锦乐
问题: cuda 9 场景编译出错
解决:已提出revert #12184的PR #12747,已经revert
20180815
值班人:闵启阳
问题: 无
20180814
值班人:唐舰
问题: VGG16 fail
解决: 定位到是elementwise_add的修改导致,已经revert #12681
20180813
值班人:李青晟
问题1: CE提示找不到文件Fail,疑似网络问题,更换代理后,该错误暂未再次出现
问题2: MNIST Fail,脚本运行失败,已经fix。
20180810
值班人:汤伟
问题1: resnet50多机 fail,已经revert
20180808
值班人: 乔龙飞
问题: 升级了所有CE agent 支持 CE多机,fail了2个,在重试中, 另外有一个agent性能下降,在调查中
20180807
值班人: 乔龙飞
问题: 无
20180806
值班人: 冯佳宜
问题: CE系统出现两次timeout错误:
- http://ce.paddlepaddle.org:8080/viewLog.html?buildId=706&buildTypeId=PaddleCe_CEBuild
- http://ce.paddlepaddle.org:8080/viewLog.html?buildId=709&buildTypeId=PaddleCe_CEBuild
解决:是由于新加入的多机模型的数据集存放位置问题。已经暂停该模型的CE。
20180803
值班人: 于洋
问题: 无