数据集导入modelarts的日志分析

举报
黄生 发表于 2025/01/14 21:56:05 2025/01/14
295 0 0
【摘要】 将4种美食的数据集从ai gallery里面导入到modelarts的数据集中(当然存储位置是在OBS),点击下图的查看日志就可以查看到日志:日志的访问URL是:https://modelarts-training-log-cn-north-4.obs.cn-north-4.myhuaweicloud.com/3ad2e677-5d66-4f97-b03f-1692cdc12d88/work...

4种美食的数据集从ai gallery里面导入到modelarts的数据集中(当然存储位置是在OBS),点击下图的查看日志
image.png

就可以查看到日志:

日志的访问URL是:
https://modelarts-training-log-cn-north-4.obs.cn-north-4.myhuaweicloud.com/3ad2e677-5d66-4f97-b03f-1692cdc12d88/worker-0/modelarts-job-3ad2e677-5d66-4f97-b03f-1692cdc12d88-worker-0.log?AccessKeyId=TEBI9OYO9DNCNXDZHXF1&Expires=1736859429&Signature=rrFlj%2FjvbMqk8mUaIhw%2BNTyJcj8%3D
这个URL是一个指向华为云对象存储服务(OBS)中某个日志文件的链接。可以将其分解为以下几个部分:

  1. 协议:
    https://: 表示使用HTTPS协议进行安全的数据传输。

  2. 域名:
    modelarts-training-log-cn-north-4.obs.cn-north-4.myhuaweicloud.com: 这是华为云OBS服务的域名,表示文件存储在华北-北京四(cn-north-4)区域的OBS桶中。modelarts-training-log-cn-north-4推测就是桶名。

  3. 路径:
    /3ad2e677-5d66-4f97-b03f-1692cdc12d88/worker-0/modelarts-job-3ad2e677-5d66-4f97-b03f-1692cdc12d88-worker-0.log: 文件在OBS桶中的路径,表示文件的具体位置。路径中的3ad2e677-5d66-4f97-b03f-1692cdc12d88可能是某个任务或作业的唯一标识符,worker-0可能表示某个工作节点,modelarts-job-3ad2e677-5d66-4f97-b03f-1692cdc12d88-worker-0.log是日志文件的名称,实际上就是modelarts-job- + 任务ID + 节点号组成。

  4. 查询参数:

    • AccessKeyId=TEBI9OYO9DNCNXDZHXF1: 这是访问密钥ID,用于标识请求者的身份。
    • Expires=1736859429: 这是URL的过期时间,表示该链接在1736859429(Unix时间戳)之后将失效。通过在浏览器里通过js转换为可读:new Date(1736859429 * 1000).toUTCString();
      ‘Tue, 14 Jan 2025 12:57:09 GMT’(GMT格林尼治标准时间现在基本为UTC协调世界时取代,本地是UTC+8)
    • Signature=rrFlj%2FjvbMqk8mUaIhw%2BNTyJcj8%3D: 这是签名信息,用于验证请求的合法性,确保请求未被篡改。

总之,这个URL是一个带有签名的临时访问链接,允许用户在指定的时间内通过HTTPS协议安全地访问存储在华为云OBS中的日志文件。URL的各个部分共同确保了文件的安全访问和身份验证。

日志内容第一行:
time=“2025-01-14T00:18:33+08:00” level=info msg=“init logger successful” file=“init.go:73” Command=bootstrap/init Component=ma-training-toolkit Platform=ModelArts-Service
最后一行:
time=“2025-01-14T00:19:02+08:00” level=info msg=“the final upload is in progress…” file=“upload.go:232” Command=obs/upload_by_channels Component=ma-training-toolkit Platform=ModelArts-Service Task=srt_log_collection

但是完整的处理时间感觉需要更长,镜像创建、启动的时间,在日志里应该没有体现。

在日志文件中,数据导入命令的部分如下:

plaintext time="2025-01-14T00:18:43+08:00" level=info msg="run command: datumaro/datumaro.sh project import --format 'gaia_imagenet' --input-path 'obs://ifantong/goodfood/datasetin/' --output-dir 'obs://ifantong/goodfood/datasetin/import_1736785104099/' --logs_dir 'obs://cnnorth4-modelarts-inner-bucket1/log/IMPORT_DATA/PCtiaGwm2NfLgceOGgY_HGXNN88keuRFTYydHti/' --overwrite -- --suffix .jpg .jpeg .bmp .png --data-type IMAGE --obj-max-size 500000 --structure 2 " file="run_train.go:548" Command=bootstrap/run Component=ma-training-toolkit Platform=ModelArts-Service

该命令使用 datumaro/datumaro.sh 脚本将数据集从华为云对象存储服务(OBS)导入到指定路径。它执行了一个数据导入操作,将OBS中的图像数据集导入到另一个OBS路径中。但是obs://ifantong/goodfood/datasetin/import_1736785104099/这个路径是一个临时路径,最后会被删除

以下是命令中各参数的含义:

  • datumaro/datumaro.sh project import:

    • 使用 datumaro 工具的 project import 功能,用于导入数据集。
  • --format 'gaia_imagenet':

    • 指定数据集的格式为 gaia_imagenet,这是一种特定的数据集格式。
  • --input-path 'obs://ifantong/goodfood/datasetin/':

    • 指定输入数据集的路径,位于OBS的 obs://ifantong/goodfood/datasetin/ 目录下。
  • --output-dir 'obs://ifantong/goodfood/datasetin/import_1736785104099/':

    • 指定导入后数据集的输出路径,位于OBS的 obs://ifantong/goodfood/datasetin/import_1736785104099/ 目录下。
  • --logs_dir 'obs://cnnorth4-modelarts-inner-bucket1/log/IMPORT_DATA/PCtiaGwm2NfLgceOGgY_HGXNN88keuRFTYydHti/':

    • 指定日志文件的存储路径,位于OBS的 obs://cnnorth4-modelarts-inner-bucket1/log/IMPORT_DATA/PCtiaGwm2NfLgceOGgY_HGXNN88keuRFTYydHti/ 目录下。
  • --overwrite:

    • 如果输出路径已存在,则覆盖现有文件。
  • --suffix .jpg .jpeg .bmp .png:

    • 指定导入的文件后缀名,仅导入 .jpg.jpeg.bmp.png 格式的图像文件。
  • --data-type IMAGE:

    • 指定数据类型为图像(IMAGE)。
  • --obj-max-size 500000:

    • 设置单个对象(文件)的最大大小为500,000字节(约500KB)。
  • --structure 2:

    • 指定数据集的结构类型为2(具体含义可能与 gaia_imagenet 格式相关)。

通过 datumaro 工具将OBS中的图像数据集导入到指定路径,为后续的训练任务提供数据支持。该操作是训练任务的关键步骤之一,确保数据能够正确加载并用于模型训练。

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

作者其他文章

评论(0

抱歉,系统识别当前为高风险访问,暂不支持该操作

    全部回复

    上滑加载中

    设置昵称

    在此一键设置昵称,即可参与社区互动!

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。