标注平台 - tencentmusic/cube-studio GitHub Wiki

项目创建和导入

点击“数据资产”->“标注平台”,可进入label studio自动化标注平台。

默认账号:[email protected] 密码:admin

输入图片说明

进入label studio后,点击首页右上角的“create”按钮,即可进入项目创建的页面。除了新创建一个空白项目,还可以直接导入数据来创建项目。导入的数据可以是txt、音频、视频、图片、csv等等。如果是大批量文件,可以先创建一个空白项目,再通过Cloud Storage导入数据更方便。

输入图片说明

点进去项目,如果发现内容不显示,可能是数据类型选择的问题。比如下图所示,上传的数据均为图片,但显示为空白,是因为默认数据类型是str,切换数据类型为image即可显示。

输入图片说明

标注内容

点击“label all tasks”按钮,对项目内容进行标注,新项目会先需要进行设置。点击右上角的settings按钮,可以进行设置。

输入图片说明

如果进入项目的labeling interface之后,看到的是空白,我们可以先点击Browse Template,查看有哪些可以选择的标注模板。我这里想标注的是人脸和人手,所以我选择的是目标识别的模板,把默认的airplane和car去掉,增加face和hand的label。

输入图片说明

设置完标注模板后,在项目中点击单条数据,即可进入手动标注的界面,点击label之后,在需要标注的目标上拖动,即可添加标注框,然后提交,即可完成这行数据的手动标注。

输入图片说明

自动化标注

label studio本身不带模型,只是有手动标注的模板。如果想用label studio进行自动化标注,可以和aihub联动,将aihub的模型配置成标注模板,进行自动化标注。

aihub模型训练可以发布成推理服务,会有一个推理服务的url,这个url可以直接用来配置为自动化标注的模型,但需要进行二开,根据label studio规定的输入输出,来重新定义推理服务的入参和出参。具体的配置方法,可以查看label studio给出的”see the document“链接。

输入图片说明

输入图片说明

配置好用于自动化标注的模型之后,就可以开始自动化标注了,如下图所示:

输入图片说明

数据同步

对于大批量的数据需要上传,或者需要进行数据集/标注结果更新的情况,可以使用Cloud Storage来管理数据集和数据集的标注结果。

输入图片说明

Source Cloud Storage和Target cloud storage可以上传数据集,可以从S3存储、谷歌、亚马逊、redis等拉取数据。如果有新增的需要标注的数据集,或者新标注的数据结果,可以直接点Sync Storage进行数据同步。

注意:标注平台已经打通了cube-studio底层的分布式存储,我们可以配置未标注前数据从/mnt/$username下同步过来,也可以将标注结果写入到/mnt/$username下,结果写入到分布式存储后就可以通过pipeline进行数据处理了

在这里插入图片描述

项目成员

点击页面左上角的设置按钮,会出现侧边栏,其中的”Organization“按钮,可以用来添加项目组成员。项目成员的设置可以控制成员的权限。

输入图片说明