README_Chineses - Zhehua-Hu/Enchain GitHub Wiki

Enchain: 数据集全周期管理工具

数据集全周期

基于深度学习应用的数据集的全生命周期通常包括:

  • 关于数据集需求,规模,投入等的讨论或规划
  • 采集设备集成与测试
  • 相关人员培训
  • 数据集产生与管理流程如下


第一阶段:图像预处理

  • 图像采集

    可以直接由采集设备存储为图像,也可以使用Enchain将视频变为图像序列

  • 图像挑选

    通过某些条件,选择适合标注的图像

  • 任务分配

    通常方法是培训标注人员进行分配或众包,目前也有通过游戏或验证码参与者标注的例子


第二阶段:图像标注

常见的标注种类如下:

  • 使用矩形或椭圆标注

    常用于分类或检测任务,通常标注文件为xml,使用VOC格式

  • 使用多边型等异形边框标注,有些任务需要像素级标注

    常用于语义分割、定位测距等任务

目前Enchain中标注功能未开发,推荐使用如下软件:

labelImg的软件使用方式在其主页上,建议使用快捷键操作提升效率。

建议使用统一的标注标准指导图像标注过程,包括并不限于以下:

  • 遵循的标注思想,常见的有VOC/KITTI
  • 标注种类及各类的定义,范围与反例

对于每位标注人员,在收到任务后并了解标注标准后,可相互交流以确认理解偏差在可接受范围内。

如果你第一次制作自己的数据集,请做好迭代标注标准的准备,因为需求或标准可能会变化。


第三阶段:数据集管理

  • 标注检查

    上一阶段每位标注人员标注的数据集将进行标注检查,由检查人员进行检查, 也可由受过训练的标注人员进行,但其不能检查自己的产出。 由一位检查人员进行称为double-check,也可由多位检查人员进行。

  • 数据集录入

    对标注的正确性与合理性进行检查后,就可以合并、入库。

  • 数据集测试

    使用新的数据集训练你的模型,检验效果。

对于深度学习应用,数据集常常需要不菲的人力物力进行维护,可能的工作包括:,

  • 数据集维护
  • 数据可视化与统计
  • 数据集合并与更新
  • 管理共享权限与分发

下文将结合Enchain讲解使用步骤

安装

Enchain使用教程

Enchain开发者

运行

./tools/updateDoxygen.sh

默认使用firefox打开生成的index.html