4.0 Accuracy and Performance - kana112233/tesseract GitHub Wiki
参见测试部分
Google数据中心的重大考验(印地语?)
Engine | Total char errors | Word Recall Errors | Word Precision Errors | Walltime | CPUtime* |
---|---|---|---|---|---|
Tess 3.04 | 13.9 | 30 | 31.2 | 3.0 | 2.8 |
Cube | 15.1 | 29.5 | 30.7 | 3.4 | 3.1 |
Tess+Cube | 11.0 | 24.2 | 25.4 | 5.7 | 5.3 |
LSTM | 7.6 | 20.9 | 20.8 | 1.5 | 2.5 |
请注意上表中LSTM比Tess 3.04(无需添加多维数据集)在壁时间和CPU时间都快! 壁挂时间为2倍.
在单个印地语页面上测试HP Z420的结果中位数为3.
Test Mode | Real | User |
---|---|---|
Original (cube + tess) | 7.6 | 7.3 |
Base Tess | 2.9 | 2.6 |
Cube | 5.4 | 4.9 |
LSTM With OpenMP+AVX | 1.8 | 3.8 |
LSTM No OpenMP with AVX | 2.7 | 2.4 |
LSTM No OpenMP with SSE | 3.1 | 2.7 |
LSTM No OpenMP no SIMD at all | 4.6 | 4.1 |
我使用简单屏幕截图进行的第一次测试使用LSTM获得了更好的结果,但是使用Tesseract(-O0)的调试版本需要16分钟的CPU时间(而不是9秒). 发布版本(-O2)使用LSTM需要17秒,对于相同图像需要4秒.
调试速度慢是可以预期的. 新代码的内存密集程度要高得多,因此调试速度要慢得多(在调试时也可以选择关闭openmp). 优化的构建速度听起来适合基于拉丁语的语言. 它
是相对于基础Tesseract运行速度更快的复杂脚本.