数据集智能标注与共享发布
1 数据准备
1.1 创建桶
创建数据集时,数据通过OBS存储。
进入控制台,将光标移动至左边栏,弹出菜单中选择“服务列表”->“存储”->“对象存储服务OBS”,如下图所示:
点击“创建桶”按钮进入创建界面。
开始创建。配置参数如下:
① 复制桶配置:不选
② 区域:华北-北京四
③ 桶名称:自定义,将在后续步骤使用
④ 数据冗余存储策略:单AZ存储
⑤ 默认存储类别:标准存储
⑥ 桶策略:私有
⑦ 默认加密:关闭
⑧ 归档数据直读:关闭
单击“立即创建”>“确定”,完成桶创建。
OBS桶创建完成后,点击创建的“桶名称”->“对象”->“新建文件夹”,创建两个文件夹,分明命名input,output,用于上传数据输入输出的存储路径。
1.2 上传数据
本实验准备了一份只标注了部分图片的菜品检测数据集,数据集包含多种菜品图片,图片总数100张,且包含10%的图片标注信息,在右侧桌面中打开Xfce终端,执行如下命令进行数据集的下载和解压:
# 下载菜品数据
wget https://modelarts-labs-bj4-v2.obs.cn-north-4.myhuaweicloud.com/course/AI_developer_certification/Professional/dishes_500.zip
# 解压菜品数据
unzip dishes_500.zip
下载解压完菜品数据之后,点击进入上步桶中创建的input文件夹。此文件夹为原始数据的存储路径,将存储包含图片和部分已标注的标签文件
点击“上传对象”,选择解压在dishes_100下的100个菜品数据文件(Ctrl + A 可全选),点击“上传对象”,选择添加文件,如下图所示:
点击右上方任务中心,可点击查看上传任务进度。
2 创建数据集
点此链接进入ModelArts数据管理控制台,点击“创建数据集”,进入创建数据集页面
根据下表完成参数设置
名称:自定义,如dataset-foods
描述:自定义
数据格式:文件型
数据类型:图片
数据集输出位置:选择1.1中创建的对象存储服务(OBS)路径。
选择创建的output文件夹,作为数据集的输出存储路径,如下图所示:
点击“确认”,完成数据集输出位置的配置。回到“创建数据集”的页面,点击“下一步”,进入到数据导入页面,参数配置如下:
数据来源:OBS,
导入方式:目录,
导入路径:OBS桶中创建的input文件夹,
数据标注状态:已标注,
如下图所示:
点击“提交”。跳转至数据集列表,可查看到创建的数据集,单击名称左侧的小三角,展开数据集详情,可查看数据集的导入状态。当状态变为“导入完成”时,表示数据集已准备就绪。
查看导入状态:
数据集准备就绪后,点击创建的数据集名称进入数据集详情页面,概览页面显示导入的75张菜品数据。
3 创建标注任务
切换至标注任务页面,点击“新建标注任务”,进入创建标注作业页面。
根据下表完成参数设置
名称:自定义,如task-foods
描述:自定义
标注场景:图片
标注类型:物体检测
数据集名称:下拉选择2中创建的数据集名称
其余默认选择,点击“创建”,即可创建标注作业,等待标注任务创建成功。
创建标注任务成功后,跳转至数据标注列表,点击创建的标注名称,进入数据标注页面。菜品数据已标注1/3,即已标注25张菜品图片,已标注的图像会显示标注信息,可切换至“已标注”页面查看。
ModelArts提供的基于主动学习的智能标注功能,可以自动为标注者挑选最具有信息量的数据,从而减少整体标注工作量。
基于主动学习的智能标注,在标注任务开始时,标注者仅需标注少量的数据作为训练集来训练模型,然后用训练好的模型对未标注数据进行推理。主动学习策略根据当前这一轮的推理结果来选择下一轮需要人工标注的数据,标注者在标注完这些数据以后将其加入训练集中,依次循环,直到模型的效果达到用户的要求。ModelArts主动学习算法包括监督模式和半监督模式。监督算法只使用用户已标注的数据进行训练;而半监督算法同时使用已标注数据和未标注数据,虽然可以提升模型精度但一般耗时较长。
基于当前标注阶段的标签数据及图片图片数据学习训练,进行智能标注,快速完成剩余图片的标注操作。
下拉“智能标注”按钮,点击“启动智能标注”。
配置参数如下:
① 智能标注类型:主动学习,
② 算法类型选择:快速型,
③ 计算节点规格:GPU,
如下图所示:
点击提交,进行智能标注。智能标注任务启动后,可以在“待确认”页签下查看智能标注任务进度。预计需等待5分钟(快速型智能标注),数据越多,任务运行时长越长,请耐心等待。
当任务完成后,即可在“待确认”页签下查看自动标注好的数据。
在智能标注任务完成后,在“待确认”页签下,单击具体图片进入标注详情页面,可以查看或修改智能标注的结果。
如果智能标注的数据无误,可单击右侧的“确认标注”,如果标注信息有误,可选中标注框进行修改,或直接删除错误标注框,然后重新标注,以纠正标注信息。针对物体检测任务,需一张一张确认。如下图所示,确认结果,确保所有图片已完成确认,然后执行下一步操作。
由于智能标注是基于前面个人标注行为来分析数据,所以个人标注得越准确,智能标注也就越准确,但智能标注难免会有一些误检,对于误检,点击右侧删除标识符,然后确认标注。如下图所示:
由于智能标注是基于前面个人标注行为来分析数据,所以个人标注得越准确,智能标注也就越准确,但智能标注难免会有一些误检,对于误检,点击右侧删除标识符,然后确认标注。如下图所示:
4 特征分析
在数据准备阶段,光有标注也是不够的,还需要对数据进行整体的统计分析,以及对单个数据进行细粒度的分析诊断,才可以更深入地了解数据,及时发现更深层次的问题并进行优化。
特征分析的主要作用在于帮助开发者快速方便地了解数据集的特点,然后制定后续的优化和处理的方案。数据集的特征分析可以融入项目开发的各个流程,如数据清洗、数据增强、模型训练、模型评估等。以目标检测为例,ModelArts特征分析模块支持的主要特征涵盖了分辨率、图像高宽比、图像亮度、图像饱和度、清晰度、图像色彩丰富度等常规图像特征,以及目标框个数、面积标准差、堆叠度等标注相关的特征。
4.1 创建特征分析任务。
a.在执行特征分析前,需先发布一个数据集版本,作为数据校验算法的输入。在智能标注中确认完数据后,单击左上角“返回数据标注预览”,然后单击“发布”,进行数据切分,“版本名称”:系统默认以V001开始,您也可以自行定义版本名称,发布一个新版本,如下图所示:
b.版本发布完成后,进入数据集概览页。选择“数据特征”页签,单击“特征分析”,在弹窗中选择刚才发布的数据集版本,并单击“确定”,启动特征分析任务。
启动特征分析:
c.查看任务进度。
任务执行过程中,可以单击“任务历史”,查看任务进度。当任务状态变为“成功”时,表示任务执行完成。
查看任务进度:
4.2 查看特征分析结果
特征分析任务执行完成后,可以在“数据特征”页签下,选择“数据集版本”、“类型”和“数据特征指标”,页面将自动呈现您选择对应版本及其指标数据,您可以根据呈现的图表了解数据分布情况,帮助您更好的理解您的数据。
数据集特征分析的界面如下图所示,用户可以自行选择感兴趣的指标进行查看。除可以查看单个数据集的特征统计外,ModelArts还支持对比功能,比如数据集不同版本之间的对比、训练集与验证集之间分布差异较大,那么说明训练数据集上训练的模型在验证集上效果可能较差。通过追踪每个特征上两个数据集之间的差异,开发者可以对数据集差异情况有更好的理解并做出优化改进。例如,可以利用迁移学习来优化算法,使得模型可以自适应不停的数据分布情况。
版本选择:根据实际情况选择已执行过特征任务的版本,可以选多个进行对比,也可以只选择一个。
类型:根据需要分析的类型选择。支持“all”、“train”、“eval”和“inference”。分别表示所有、训练、评估和推理类型。
数据特征指标:选择您需要展示的指标。详细指标解释,可参见–特征分析指标列表
在特征分析结果中,例如图片亮度指标,数据分布中,分布不均匀,缺少某一种亮度的图片,而此指标对模型训练非常关键。此时可选择增加对应亮度的图片,让数据更均衡,为后续模型构建做准备。
5 发布数据集资产
点击发布资产,可将数据资源直接发布至AI Gallery,以及和AI Gallery的数据互通。方便您对数据共享和售卖。
点击“资产发布列表”,可查看任务进度。当任务状态变为“成功”时,表示资产发布执行完成。
查看任务进度:
点击资产链接,可查看发布至AI Gallery的数据集。
- 点赞
- 收藏
- 关注作者
评论(0)