新的1805数据训练报告 - yubo105139/paper GitHub Wiki
实验目的:
- 测试新的数据集是否有效
- 分析之前实验中添加新数据模型变差的原因
实验设置:
数据集:训练集: 新制作的优质数据集1806张,验证集: 200张;
数据集:训练集中a: b: c = 691: 1025: 290,大概比例为7:10:3;
模型:当前enocr baseline网络,含有30个block的drn中的p网络;
训练使用的代码位置:
https://gitlab.bbwh.loc/beyondbitwh/AI-algorithm/experiment_speedup/basictext
master分支
原1204数据训练复现
新1806数据训练
分析:
- 训练的参数配置一样,相比使用1204数据集训练,新1806数据集的训练使各个loss都收敛到了更低的水平。
gradient_loss从3.1e-3 左右降到 2.70e-3左右。
ocr_loss从0.01左右降到4e-3左右, 且波动幅度较小。
percep_loss从0.42左右降到0.34左右
piexl_loss从0.155左右降到0.125左右
seg_loss从2.6e-5左右降到6e-6左右
total_loss从0.60降到0.48
- total_loss都还在下降未达到收敛。
best_model: 当前项目使用的模型
baseline_1204: 1204训练数据集使用原始初始化参数训练。
baseline_1806:新的1806数据集使用原始初始化参数训练。
取训练的第200k, 378k,756k个iter的模型,进行测试比较,比较不同测试集上生成的增强图像的检出字符数。
模型 | test_257 | test_250 | test_295 | test_96 | test_93 | test_97 | 共识别字符数 |
---|---|---|---|---|---|---|---|
OR | 199571 | 97042 | 183013 | 38104 | 43881 | 46583 | 608194 |
best_model | 227336 | 100888 | 185281 | 39356 | 44174 | 47643 | 644678 |
baseline_1204(200k) | 222142 | 99968 | 184412 | 38943 | 44111 | 47415 | 636991 |
baseline_1204(378k) | 224327 | 100012 | 184952 | 39233 | 44264 | 47756 | 640544 |
baseline_1204(756k) | 224425 | 100031 | 184689 | 39084 | 44227 | 47679 | 640135 |
baseline_1806(200k) | 212756 | 98001 | 181758 | 38471 | 44022 | 46678 | 621686 |
baseline_1806(378k) | 213282 | 96825 | 181621 | 38850 | 44047 | 46756 | 621381 |
baseline_1806(756k) | 215144 | 97052 | 181557 | 38597 | 44122 | 46784 | 623256 |
分析:
-
相较于1204数据集的训练,1806的loss收敛到了更低的值,但是其生成的增强图的ocr检出却不如1204的模型生成增强图。
-
原始的best_model取的200k个iter的模型,复现结果没有达到原始模型的效果,随着iter的增大loss下降,但是增强图的识别字符数并没有明显大提升,测试的几组模型增强结果的ocr检出均不如best_model。
结论:
- 基于1204的训练集,随着iter的继续增大,之前模型的识别字符数增强的结论在本次实验中没有体现。有待进一步验证。
- 整个模型的loss的下降不一定会使得模型的识别字符数增加。
- 质量相近的数据,数据量大的同iter数据收敛较快。
- 由于在另一组调节学习率的实验中模型的loss,降到了更低的一个水平,暂未测试,结论待定。