2018 09 - PaddlePaddle/continuous_evaluation GitHub Wiki
2018 9月值班日志
注:最新的日志记录在最上面
20180930
值班人:闫旭
CE
- 性能问题:涉及的模型以及相关issue为language model和image classificatin
- language model 程序 core dump,后续没有复现,持续观察中。https://github.com/PaddlePaddle/continuous_evaluation/issues/128
20180929
值班人:董志宏
CE
CE的问题从25号开始有问题,@陈后江在跟进。涉及的模型有resnet50 model_icnet model_image_classification model_ocr_recognition model_sequence_tagging_for_ner。
CI
- test_parallel_executor_mnist有diff,排查后发现春伟的PR是core掉了。单测没问题。
- paddle whl包没有正常生成。排查后发现是pip版本太低。@杨嘉彬尝试升级到9.0.1
20180928
值班人:陈后江
CE
- ce性能问题,25号开始就存在,涉及的模型有resnet50 cifar10_128_train_speed/sequence_tagging_for_ner/vgg cifar10_128_train_speed/text_classification,问题还在跟进。 http://ce.paddlepaddle.org:8080/viewLog.html?buildId=1862&buildTypeId=PaddleCe_CEBuild
- 连续三次ce出现timeout问题。编译接近1个半小时,正常情况大概20分钟,怀疑是机器和网络问题,昨天重启机器后今天没有再复现,已解决。 http://ce.paddlepaddle.org:8080/viewLog.html?buildId=1873&buildTypeId=PaddleCe_CEBuild&tab=buildLog&_focus=17111
- transformer模型检查graph报错,可能原因是模型的问题。已经提交fix commit,ce已经重新提交,验证通过,已解决。 http://ce.paddlepaddle.org:8080/viewLog.html?buildId=1894&buildTypeId=PaddleCe_CEBuild&tab=buildLog。
- language_model 4卡训练cross_entropy会报错,从27号开始就存在这个问题。可能原因是paddle ce中的训练脚本多卡并行用的是parallel do,而parallel do现在可能会出现问题,改成parallel executor后正在验证。 http://ce.paddlepaddle.org:8080/viewLog.html?buildId=1938&buildTypeId=build_CeCertainTasks&tab=buildLog
CI
py35 dist单测会出现偶然性hang住,原因是python35 subprocess控制分布式进程的bug,暂时disable。
值班机制问题
- ce/ci @机制有问题,26号没有通知到对应的值班人
- 上一天问题没有明确结论,遗留到下一天
- ce日志有点混乱,不大好排查问题
- ce debug缺少文档
20180927
- 值班人: 武毅
- CE问题:
- 发现CE性能差异较多,revert 可疑改动:https://github.com/PaddlePaddle/Paddle/pull/13618
- CE机器从 commit
01fda9345a6db12ce4db3e05e9ae561de7bdab20
开始性能差距巨大,检查后怀疑为机器问题,重启机器后性能好转,但仍有少量diff,需要继续追查原因
- CI问题:
- 有一台机器出现recordio单测稳定失败,怀疑为docker 使用 devicemapper导致IO不稳定,已和 @田硕 沟通,决定推进阡陌升级 overlay2 并测试是否可以解决
- 修复mac CI缺少aclocal命令目前可以正常执行
20180925
- 值班人:闵启阳
- CE问题:http://180.76.57.222:8111/viewLog.html?buildId=635&buildTypeId=PaddleModesl_Build
- model_mnist model_neural_machine_translation_transformer Fail
- get_inference_program API 从 io.py 中去除, models的release/0.15.0分支未同步改动, 已推动改进; https://github.com/PaddlePaddle/models/pull/1285
- model_ocr_recognition Fail
- 框架API改动错误, 已推动改进: https://github.com/PaddlePaddle/Paddle/pull/13561
- model_mnist model_neural_machine_translation_transformer Fail
20180924
- 值班人:唐舰
- CE问题:无
- CI问题:无
20180920
- 值班人:于洋
- CE问题:http://ce.paddlepaddle.org:8080/viewLog.html?buildId=1798&buildTypeId=PaddleCe_CEBuild&tab=buildChangesDiv
- language_model Fail
- 重构的MixedVector有bug,已revert
- language_model Fail
20180918
- 值班人:郭晟
- CE问题:http://ce.paddlepaddle.org:8080/viewLog.html?buildId=1779&buildTypeId=PaddleCe_CEBuild
- resnet50_net_CPU
- train_acc 超阈值
- 原因待定,查看changes无相关的改动
- language_model、sequence_tagging_for_ner、text_classification
- AttributeError: 'module' object has no attribute 'ParallelDo'。
- 应该是由于ParallelDo被deprecated掉了https://github.com/PaddlePaddle/Paddle/pull/13454 ,后续需要统一处理下。
- object_detection
paddle.fluid.core.EnforceNotMet: Input(Out@GRAD) should not be null at [/workspace/paddle/fluid/operators/slice_op.cc:129]
- @qingqing 已经提交PR进行Fix https://github.com/PaddlePaddle/Paddle/pull/13435 ,尚未merge
- resnet50_net_CPU
- CI问题:无
20180917
- 值班人:巩伟宝
- CE问题: failed: model_object_detection
http://180.76.57.222:8111/viewLog.html?buildId=563&buildTypeId=PaddleModesl_Build - CI问题:无
20180912
- 值班人:刘毅冰
- CE问题: failed models:model_image_classification model_object_detection http://180.76.57.222:8111/viewLog.html?buildId=515&buildTypeId=PaddleModesl_Build
- CI问题:无
20180911
- 值班人:党青青
- CE问题:language_model的speed超了阈值,待查是哪个PR @qingqing , object_detection的speed超了阈值,待查是哪个PR。
- CI问题:无
20180910
- 值班人:赵成舵
- CE问题:resnet50_net随机挂掉:http://ce.paddlepaddle.org:8080/viewLog.html?buildId=1669&buildTypeId=PaddleCe_CEBuild&tab=buildLog . (修复中:https://github.com/PaddlePaddle/paddle-ce-latest-kpis/pull/140 )
- CI问题:无
20180907
- 值班人:骆涛
- CE问题:details.resnet50_net_GPU随机挂掉:http://ce.paddlepaddle.org:8080/viewLog.html?buildId=1651&buildTypeId=PaddleCe_CEBuild&tab=buildLog&_focus=18977 。@赵成舵 已提PR修复:https://github.com/PaddlePaddle/paddle-ce-latest-kpis/pull/140。
- CI问题:无
20180906
- 值班人:闫旭
- CE问题:无
- CI问题:分布式单测随机挂掉的问题,已fix:https://github.com/PaddlePaddle/Paddle/pull/13250
20180905
值班人: 董志宏
问题: 无