新的1805数据训练报告 - yubo105139/paper GitHub Wiki

实验目的:

  • 测试新的数据集是否有效
  • 分析之前实验中添加新数据模型变差的原因

实验设置:

数据集:训练集: 新制作的优质数据集1806张,验证集: 200张;

数据集:训练集中a: b: ​c = 691: 1025: 290,大概比例为7:10:3;

模型:当前enocr baseline网络,含有30个block的drn中的p网络;

训练使用的代码位置:

https://gitlab.bbwh.loc/beyondbitwh/AI-algorithm/experiment_speedup/basictext

master分支

训练状态对比

原1204数据训练复现

image-20210705142705041

新1806数据训练

image-20210705151439717

分析:

  • 训练的参数配置一样,相比使用1204数据集训练,新1806数据集的训练使各个loss都收敛到了更低的水平。

gradient_loss从3.1e-3 左右降到 2.70e-3左右。

ocr_loss从0.01左右降到4e-3左右, 且波动幅度较小。

percep_loss从0.42左右降到0.34左右

piexl_loss从0.155左右降到0.125左右

seg_loss从2.6e-5左右降到6e-6左右

total_loss从0.60降到0.48

  • total_loss都还在下降未达到收敛。

增强图ocr测试结果

best_model: 当前项目使用的模型

baseline_1204: 1204训练数据集使用原始初始化参数训练。

baseline_1806:新的1806数据集使用原始初始化参数训练。

​ 取训练的第200k, 378k,756k个iter的模型,进行测试比较,比较不同测试集上生成的增强图像的检出字符数。

模型 test_257 test_250 test_295 test_96 test_93 test_97 共识别字符数
OR 199571 97042 183013 38104 43881 46583 608194
best_model 227336 100888 185281 39356 44174 47643 644678
baseline_1204(200k) 222142 99968 184412 38943 44111 47415 636991
baseline_1204(378k) 224327 100012 184952 39233 44264 47756 640544
baseline_1204(756k) 224425 100031 184689 39084 44227 47679 640135
baseline_1806(200k) 212756 98001 181758 38471 44022 46678 621686
baseline_1806(378k) 213282 96825 181621 38850 44047 46756 621381
baseline_1806(756k) 215144 97052 181557 38597 44122 46784 623256

分析:

  • 相较于1204数据集的训练,1806的loss收敛到了更低的值,但是其生成的增强图的ocr检出却不如1204的模型生成增强图。

  • 原始的best_model取的200k个iter的模型,复现结果没有达到原始模型的效果,随着iter的增大loss下降,但是增强图的识别字符数并没有明显大提升,测试的几组模型增强结果的ocr检出均不如best_model。

结论:

  • 基于1204的训练集,随着iter的继续增大,之前模型的识别字符数增强的结论在本次实验中没有体现。有待进一步验证。
  • 整个模型的loss的下降不一定会使得模型的识别字符数增加。
  • 质量相近的数据,数据量大的同iter数据收敛较快。
  • 由于在另一组调节学习率的实验中模型的loss,降到了更低的一个水平,暂未测试,结论待定。
⚠️ **GitHub.com Fallback** ⚠️