README_Chineses - Zhehua-Hu/Enchain GitHub Wiki
Enchain: 数据集全周期管理工具
数据集全周期
基于深度学习应用的数据集的全生命周期通常包括:
- 关于数据集需求,规模,投入等的讨论或规划
- 采集设备集成与测试
- 相关人员培训
- 数据集产生与管理流程如下
第一阶段:图像预处理
-
图像采集
可以直接由采集设备存储为图像,也可以使用Enchain将视频变为图像序列
-
图像挑选
通过某些条件,选择适合标注的图像
-
任务分配
通常方法是培训标注人员进行分配或众包,目前也有通过游戏或验证码参与者标注的例子
第二阶段:图像标注
常见的标注种类如下:
-
使用矩形或椭圆标注
常用于分类或检测任务,通常标注文件为xml,使用VOC格式
-
使用多边型等异形边框标注,有些任务需要像素级标注
常用于语义分割、定位测距等任务
目前Enchain中标注功能未开发,推荐使用如下软件:
labelImg的软件使用方式在其主页上,建议使用快捷键操作提升效率。
建议使用统一的标注标准指导图像标注过程,包括并不限于以下:
- 遵循的标注思想,常见的有VOC/KITTI
- 标注种类及各类的定义,范围与反例
对于每位标注人员,在收到任务后并了解标注标准后,可相互交流以确认理解偏差在可接受范围内。
如果你第一次制作自己的数据集,请做好迭代标注标准的准备,因为需求或标准可能会变化。
第三阶段:数据集管理
-
标注检查
上一阶段每位标注人员标注的数据集将进行标注检查,由检查人员进行检查, 也可由受过训练的标注人员进行,但其不能检查自己的产出。 由一位检查人员进行称为double-check,也可由多位检查人员进行。
-
数据集录入
对标注的正确性与合理性进行检查后,就可以合并、入库。
-
数据集测试
使用新的数据集训练你的模型,检验效果。
对于深度学习应用,数据集常常需要不菲的人力物力进行维护,可能的工作包括:,
- 数据集维护
- 数据可视化与统计
- 数据集合并与更新
- 管理共享权限与分发
下文将结合Enchain讲解使用步骤
安装
-
Windows用户
可执行文件下载, 直接运行。
-
Ubuntu用户
暂时只支持从源码运行
Enchain使用教程
Enchain开发者
运行
./tools/updateDoxygen.sh
默认使用firefox打开生成的index.html