新的1805数据训练报告 - yubo105139/paper GitHub Wiki

实验目的：

实验设置：

数据集：训练集： 新制作的优质数据集1806张，验证集： 200张；

数据集：训练集中a: b: c = 691: 1025: 290,大概比例为7:10:3；

模型：当前enocr baseline网络，含有30个block的drn中的p网络；

训练使用的代码位置：

master分支

原1204数据训练复现

新1806数据训练

分析：

gradient_loss从3.1e-3 左右降到 2.70e-3左右。

ocr_loss从0.01左右降到4e-3左右, 且波动幅度较小。

percep_loss从0.42左右降到0.34左右

piexl_loss从0.155左右降到0.125左右

seg_loss从2.6e-5左右降到6e-6左右

total_loss从0.60降到0.48

best_model: 当前项目使用的模型

baseline_1204: 1204训练数据集使用原始初始化参数训练。

baseline_1806：新的1806数据集使用原始初始化参数训练。

取训练的第200k， 378k，756k个iter的模型，进行测试比较，比较不同测试集上生成的增强图像的检出字符数。

模型	test_257	test_250	test_295	test_96	test_93	test_97	共识别字符数
OR	199571	97042	183013	38104	43881	46583	608194
best_model	227336	100888	185281	39356	44174	47643	644678
baseline_1204(200k)	222142	99968	184412	38943	44111	47415	636991
baseline_1204(378k)	224327	100012	184952	39233	44264	47756	640544
baseline_1204(756k)	224425	100031	184689	39084	44227	47679	640135
baseline_1806(200k)	212756	98001	181758	38471	44022	46678	621686
baseline_1806(378k)	213282	96825	181621	38850	44047	46756	621381
baseline_1806(756k)	215144	97052	181557	38597	44122	46784	623256

分析：

相较于1204数据集的训练，1806的loss收敛到了更低的值，但是其生成的增强图的ocr检出却不如1204的模型生成增强图。
原始的best_model取的200k个iter的模型，复现结果没有达到原始模型的效果，随着iter的增大loss下降，但是增强图的识别字符数并没有明显大提升，测试的几组模型增强结果的ocr检出均不如best_model。

结论：