体验ModelArts数据管理-物体检测类型

举报
运气男孩 发表于 2021/03/31 00:40:47 2021/03/31
【摘要】     在AI模型开发过程中,数据科学家需要花费较多时间在数据准备环境。包括数据预处理、数据标注等工作,当数据量庞大、种类较多时,数据准备工作繁琐,且耗时长。而ModelArts提供的数据管理功能,不仅提供了基础的数据标注、版本管理能力,同时还提供了数据处理(数据选择、数据清洗等)、自动分组、智能标注、特征分析等功能,帮助用户提升数据准备效率。    这里,结合一个物体检测小案例来体验一下M...

    在AI模型开发过程中,数据科学家需要花费较多时间在数据准备环境。包括数据预处理、数据标注等工作,当数据量庞大、种类较多时,数据准备工作繁琐,且耗时长。而ModelArts提供的数据管理功能,不仅提供了基础的数据标注、版本管理能力,同时还提供了数据处理(数据选择、数据清洗等)、自动分组、智能标注、特征分析等功能,帮助用户提升数据准备效率。

    这里,结合一个物体检测小案例来体验一下ModelArts的数据管理功能。Let's go!

准备工作

在使用 ModelArts进行开发前,需先完成如下准备工作,如果已完成,跳过此步骤。

  1. 注册华为云帐号。

  2. 完成实名认证。

  3. 登录ModelArts管理控制台,左上角选择使用区域(例如,华北-北京四),使用委托完成访问授权。

  4. 在左上角服务列表中,选择对象存储服务,进入OBS管理控制台。创建1个OBS桶用于存储数据。

    创建桶时,“区域”选择“华北-北京四”,“数据冗余存储策略”选择“单AZ存储”,其他参数使用默认值。

操作流程概览

完成了基础环境准备后,就可以前往ModelArts管理控制台,开始进行AI数据开发,此次操作主要分为以下几个流程:

  1. 从AI Gallery下载数据集

  2. 数据处理

  3. 自动分组

  4. 智能标注

  5. 特征分析

从AI Gallery下载数据集

AI Gallery提供的animal数据集介绍

  • 用于物体检测,包含830张未标注样本。

  • 数据集一共包含4种类别:熊猫、马、鹿、猴子。

参考如下操作,将AI Gallery的数据集下载至当前帐号的数据管理中。

  1. 单击animal数据集,打开AI Gallery的数据集详情页面。

  2. 单击右上角“下载”。

  3. 在弹出的对话框中,填写如下参数,将此数据集下载至数据管理中。

    “下载方式”:ModelArts数据集

    “目标区域”:华北-北京四

    “目标位置”:请选择前期准备工作中创建的OBS桶,可以在弹窗中通过“创建文件夹”,创建命名为animal的文件夹用于存储数据。

    “名称”:定义ModelArts中呈现的数据集名称。这里我使用animal-demo名称。

image.png

4.单击“确定”开始下载。页面自动进入下载列表,您可以通过进度列查看详细下载进度。

此页面需要自己手动刷新页面查看最新下载进度,由于数据集较大,下载预计要花费3~5分钟左右。

5.在我的下载中可以查看进度,当下载状态变为已完成时,就说明已经下载完成了。

image.png

image.png

 

数据处理

进入ModelArts的控制台,选中数据管理-数据集,然后找到animal-demo,单击发布。

image.png

发布数据集版本。

在执行数据选择处理前,我们需要先发布一个数据集版本,作为数据校验算法的输入。

  1. 进入“数据管理>数据集”页面,选择从AI Gallery下载的数据集,单击右侧操作列的“发布”。

  2. 在弹出的“发布新版本”对话框中,填写如下参数,然后单击“确定”发布数据集版本。

    “版本名称”:系统默认以V001开始,您也可以自行定义版本名称。

    其他参数建议使用默认值。等待发布版本创建完成。

image.png

创建数据处理任务

在此任务中,选择“数据选择”算法。

  1. 在左侧菜单栏中,选择“数据管理>数据处理”,单击“创建”。

  2. 在“创建数据处理”页面,填写如下参数,然后单击创建,完成数据处理任务的创建。

    • “名称”:自定义方便辨识的任务名称。

    • “场景类别”:物体检测

    • “数据处理类型”:数据选择

    • “输入”:数据集,选择刚才创建的数据集及其数据集版本、

    • “输出”:选择刚才创建的数据集作为目标数据集,并指定一个新的数据集版本名称,数据处理结果会保存为该数据集的一个新版本。

image.png

image.png

数据处理任务创建完成后,任务将自动启动,且界面自动跳转至数据处理任务列表页面。当数据处理任务状态变为“完成”时,表示任务执行完成。

image.png

查看数据选择结果。即删除相似图像后的结果。

数据选择任务完成后,单击任务名称进入详情页面。在详情页面中,选择“结果展示”页签,可查看全部数据、保留数据以及删除的数据。在“删除”页签下,即根据算法规则,删除的相似度较高的图像。

image.png

将数据选择后的版本设置为数据集当前版本

数据处理任务执行后,其处理结果对应的数据集版本不会作为当前版本。为方便后续数据标注、特征分析等操作,需要将数据选择后的数据集版本,设置为数据集的当前版本。

  1. 进入“数据管理>数据集”页面,单击进行处理的数据集名称(animal-demo),进入数据集概览页。

  2. 选择“版本管理”页签,选中数据处理后的版本,然后单击“设置为当前版本”

image.png

自动分组

自动分组可以理解为数据标注的预处理,先使用聚类算法对未标注图片进行聚类,再根据聚类结果进行处理,可以分组打标或者清洗图片。

在数据集详情页面,选择“全部”页签,单击“自动分组>启动任务”

image.png

image.png

等待几分钟

image.png

当自动分组任务完成后,您可以通过数据筛选功能,查看分组后,不同类别的详细数据。

“全部”页签下,单击“筛选条件”右侧的“展开”,在“样本属性”右侧,选择自动分组定义的属性名称,然后选择不同的类别。自动分组任务定义的是4种分类,此时可通过0、1、2、3进行筛选查看4种不同类别下的数据。可以说是非常的方便了

image.png

智能标注

除了人工标注外,ModelArts还提供了智能标注功能,帮助您快速完成剩余的数据标注,为您节省70%以上的标注时间。

人工标注部分数据。

在启动智能标注前,需人工完成少量数据标注,每个标签至少15张图片。
  1. 定义标签。在“数据集概览”页面,单击右上角的“修改”,在弹出窗口中定义本数据集将使用的标签名称。例如Panda、Horse、Monkey、Deer。

image.png

启动智能标注

  1. 在数据集详情页面,单击右上角“启动智能标注”。

  2. 在“启动智能标注”窗口中,填写如下参数,然后单击“提交”。

    其他参数值请采用默认值

    • “智能标注类型”:主动学习

    • “算法类型”:快速型

image.png

image.png

确认智能标注结果。

在智能标注任务完成后,在“待确认”页签下,单击具体图片进入标注详情页面,可以查看或修改智能标注的结果。

如果智能标注的数据无误,可单击右侧的“确认标注”,如果标注信息有误,可直接删除错误标注框,然后重新标注,以纠正标注信息。针对物体检测任务,需一张一张确认。确保所有图片已完成确认,然后执行下一步操作。

特征分析

标注完成后,可以基于图片或目标框对图片的各项特征,如模糊度、亮度进行分析,帮助用户更好的分析数据集的数据质量和标注质量,判断数据集是否满足自己的算法和模型要求。

    1. 创建特征分析任务。

      1. 在执行特征分析前,需先发布一个数据集版本。在智能标注并确认完的数据,单击右上角“返回数据集概览”,然后单击“发布”,发布一个新版本。

      2. 版本发布完成后,进入数据集概览页。选择“数据特征”页签,单击“特征分析”,在弹窗中选择刚才发布的数据集版本,并单击“确定”,启动特征分析任务。

        image.png

2.查看特征分析结果。

    1. 特征分析任务执行完成后,可以在“数据特征”页签下,选择“数据集版本”“类型”“数据特征指标”,页面将自动呈现您选择对应版本及其指标数据,您可以根据呈现的图表了解数据分布情况,帮助您更好的理解您的数据。

    2. “版本选择”:根据实际情况选择已执行过特征任务的版本,可以选多个进行对比,也可以只选择一个。

    3. “类型”:根据需要分析的类型选择。支持“all”“train”“eval”“inference”。分别表示所有、训练、评估和推理类型。

    4. “数据特征指标”:选择您需要展示的指标。

 

image.png

在特征分析结果中,例如图片亮度指标,数据分布中,分布不均匀,缺少某一种亮度的图片,而此指标对模型训练非常关键。此时可选择增加对应亮度的图片,让数据更均衡,为后续模型构建做准备。

总结

在完成特征分析后,如无需进行数据调整,则可直接使用此数据集及其版本用于后续的模型构建。即已完成AI开发过程中的数据准备。

智能标注就是在手动标注的标签里匹配特征值,找相似,会由于数据标注的不精准而影响其准确性,如何用更少的数据和精准的标注是我后面要思考的问题,这一整套流程下来,深刻体会到了ModelArts 的方便和快速,总的来说体验不错,动手还是比理论看来的深刻。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

举报
请填写举报理由
0/200