数据集导入modelarts的日志分析
【摘要】 将4种美食的数据集从ai gallery里面导入到modelarts的数据集中(当然存储位置是在OBS),点击下图的查看日志就可以查看到日志:日志的访问URL是:https://modelarts-training-log-cn-north-4.obs.cn-north-4.myhuaweicloud.com/3ad2e677-5d66-4f97-b03f-1692cdc12d88/work...
将4种美食的数据集从ai gallery里面导入到modelarts的数据集中(当然存储位置是在OBS),点击下图的查看日志
就可以查看到日志:
日志的访问URL是:
https://modelarts-training-log-cn-north-4.obs.cn-north-4.myhuaweicloud.com/3ad2e677-5d66-4f97-b03f-1692cdc12d88/worker-0/modelarts-job-3ad2e677-5d66-4f97-b03f-1692cdc12d88-worker-0.log?AccessKeyId=TEBI9OYO9DNCNXDZHXF1&Expires=1736859429&Signature=rrFlj%2FjvbMqk8mUaIhw%2BNTyJcj8%3D
这个URL是一个指向华为云对象存储服务(OBS)中某个日志文件的链接。可以将其分解为以下几个部分:
-
协议:
https://
: 表示使用HTTPS协议进行安全的数据传输。 -
域名:
modelarts-training-log-cn-north-4.obs.cn-north-4.myhuaweicloud.com
: 这是华为云OBS服务的域名,表示文件存储在华北-北京四(cn-north-4)区域的OBS桶中。modelarts-training-log-cn-north-4推测就是桶名。 -
路径:
/3ad2e677-5d66-4f97-b03f-1692cdc12d88/worker-0/modelarts-job-3ad2e677-5d66-4f97-b03f-1692cdc12d88-worker-0.log
: 文件在OBS桶中的路径,表示文件的具体位置。路径中的3ad2e677-5d66-4f97-b03f-1692cdc12d88
可能是某个任务或作业的唯一标识符,worker-0
可能表示某个工作节点,modelarts-job-3ad2e677-5d66-4f97-b03f-1692cdc12d88-worker-0.log
是日志文件的名称,实际上就是modelarts-job- + 任务ID + 节点号组成。 -
查询参数:
AccessKeyId=TEBI9OYO9DNCNXDZHXF1
: 这是访问密钥ID,用于标识请求者的身份。Expires=1736859429
: 这是URL的过期时间,表示该链接在1736859429
(Unix时间戳)之后将失效。通过在浏览器里通过js转换为可读:new Date(1736859429 * 1000).toUTCString();
‘Tue, 14 Jan 2025 12:57:09 GMT’(GMT格林尼治标准时间现在基本为UTC协调世界时取代,本地是UTC+8)Signature=rrFlj%2FjvbMqk8mUaIhw%2BNTyJcj8%3D
: 这是签名信息,用于验证请求的合法性,确保请求未被篡改。
总之,这个URL是一个带有签名的临时访问链接,允许用户在指定的时间内通过HTTPS协议安全地访问存储在华为云OBS中的日志文件。URL的各个部分共同确保了文件的安全访问和身份验证。
日志内容第一行:
time=“2025-01-14T00:18:33+08:00” level=info msg=“init logger successful” file=“init.go:73” Command=bootstrap/init Component=ma-training-toolkit Platform=ModelArts-Service
最后一行:
time=“2025-01-14T00:19:02+08:00” level=info msg=“the final upload is in progress…” file=“upload.go:232” Command=obs/upload_by_channels Component=ma-training-toolkit Platform=ModelArts-Service Task=srt_log_collection
但是完整的处理时间感觉需要更长,镜像创建、启动的时间,在日志里应该没有体现。
在日志文件中,数据导入命令的部分如下:
plaintext time="2025-01-14T00:18:43+08:00" level=info msg="run command: datumaro/datumaro.sh project import --format 'gaia_imagenet' --input-path 'obs://ifantong/goodfood/datasetin/' --output-dir 'obs://ifantong/goodfood/datasetin/import_1736785104099/' --logs_dir 'obs://cnnorth4-modelarts-inner-bucket1/log/IMPORT_DATA/PCtiaGwm2NfLgceOGgY_HGXNN88keuRFTYydHti/' --overwrite -- --suffix .jpg .jpeg .bmp .png --data-type IMAGE --obj-max-size 500000 --structure 2 " file="run_train.go:548" Command=bootstrap/run Component=ma-training-toolkit Platform=ModelArts-Service
该命令使用 datumaro/datumaro.sh
脚本将数据集从华为云对象存储服务(OBS)导入到指定路径。它执行了一个数据导入操作,将OBS中的图像数据集导入到另一个OBS路径中。但是obs://ifantong/goodfood/datasetin/import_1736785104099/这个路径是一个临时路径,最后会被删除
以下是命令中各参数的含义:
-
datumaro/datumaro.sh project import
:- 使用
datumaro
工具的project import
功能,用于导入数据集。
- 使用
-
--format 'gaia_imagenet'
:- 指定数据集的格式为
gaia_imagenet
,这是一种特定的数据集格式。
- 指定数据集的格式为
-
--input-path 'obs://ifantong/goodfood/datasetin/'
:- 指定输入数据集的路径,位于OBS的
obs://ifantong/goodfood/datasetin/
目录下。
- 指定输入数据集的路径,位于OBS的
-
--output-dir 'obs://ifantong/goodfood/datasetin/import_1736785104099/'
:- 指定导入后数据集的输出路径,位于OBS的
obs://ifantong/goodfood/datasetin/import_1736785104099/
目录下。
- 指定导入后数据集的输出路径,位于OBS的
-
--logs_dir 'obs://cnnorth4-modelarts-inner-bucket1/log/IMPORT_DATA/PCtiaGwm2NfLgceOGgY_HGXNN88keuRFTYydHti/'
:- 指定日志文件的存储路径,位于OBS的
obs://cnnorth4-modelarts-inner-bucket1/log/IMPORT_DATA/PCtiaGwm2NfLgceOGgY_HGXNN88keuRFTYydHti/
目录下。
- 指定日志文件的存储路径,位于OBS的
-
--overwrite
:- 如果输出路径已存在,则覆盖现有文件。
-
--suffix .jpg .jpeg .bmp .png
:- 指定导入的文件后缀名,仅导入
.jpg
、.jpeg
、.bmp
和.png
格式的图像文件。
- 指定导入的文件后缀名,仅导入
-
--data-type IMAGE
:- 指定数据类型为图像(
IMAGE
)。
- 指定数据类型为图像(
-
--obj-max-size 500000
:- 设置单个对象(文件)的最大大小为500,000字节(约500KB)。
-
--structure 2
:- 指定数据集的结构类型为2(具体含义可能与
gaia_imagenet
格式相关)。
- 指定数据集的结构类型为2(具体含义可能与
通过 datumaro
工具将OBS中的图像数据集导入到指定路径,为后续的训练任务提供数据支持。该操作是训练任务的关键步骤之一,确保数据能够正确加载并用于模型训练。
【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)