数据集 - tencentmusic/cube-studio GitHub Wiki

一、数据集简介

数据集一般用于管理图文音的数据集。

输入图片说明

二、数据集的建立

数据集可以有三种方式导入到平台。

sdk导入数据集

数据集可以通过sdk上传,具体使用方法可以查看sdk的使用。

在线数据导入

在线的数据集可以直接配置下载地址,点击下载地址会直接下载到本地。

输入图片说明

想要将在线数据集下载到平台,方便进入模型使用,需要使用pipeline的dataset模板。dataset模板会将在线数据集下载到平台,保存在分布式存储中,供后续建模、推理等。

输入图片说明

本地数据导入

本地数据集上传到平台,需要先用notebook把数据上传到分布式存储,再在数据集中增加元数据的信息,也就是手动添加分布式存储的路径。

三、 数据集的增删改查备份

数据集可以进行增删改查备份,删改和详情查看在数据集的“更多”按钮处。备份后的数据在分布式存储的/data/k8s/Kubeflow/global/dataset中。

输入图片说明