图像内容理解-图像智能分析-图片内容理解API接口介绍

举报
聚美智数 发表于 2026/04/13 10:40:59 2026/04/13
【摘要】 图像内容理解服务基于视觉大模型,支持人、物、行为、场景、文字等多维度识别,可生成一句话描述、分类标签及OCR文字信息。提供“提交请求”和“获取结果”两个API接口,适用于看图问答、视觉推理等场景。

简介

图像内容理解,即采用图像理解视觉大模型,可多维度识别与理解图片内容,包括人、物、行为、场景、文字等,支持输出对图片内容的一句话描述,同时返回图片的分类标签、文字内容等信息。主要功能包括:

  1. 图片理解与内容描述
    多维度理解图片内容,支持输出对图片内容的一句话描述,结合大语言模型,可应用于看图问答、视觉推理等场景。

  2. 物体和场景全识别
    识别动物、植物、商品、建筑、风景、动漫、食材、公众人物等10万个常见物体及场景,支持拼接返回大类及细分类名称。

  3. 图片文字全识别
    检测并识别图片内的全部文字信息,涵盖文档、证件等常见场景,支持输出文字内容及文字位置。

API介绍

图像内容理解服务涉及 2 个接口,分别为:

图像内容理解-提交请求:支持传入图片、提问等参数,创建图像内容理解任务,该接口会返回任务ID。
图像内容理解-获取结果:在任务成功创建后,支持传入任务ID,查看任务处理的状态、获取处理完成后返回的结果。

详细说明请参考此处

提交请求

请求参数

名称 类型 必须 说明
image String 图片的base64
url String 图片完整 url,url 长度不超过 1024 字节
question String 提问信息,如“这张图片里有什么?”、“图中的人物是谁,并进行简单介绍”,限制 100 个字符之内
  • image、url 必须提供一个,优先级:url > base64。大小不超过10M,最短边至少64px,最长边最大8192px,图片格式支持jpg/jpeg/png格式。超过4096px的图片,将被自动等比例压缩至4096px进行处理,压缩后会影响处理效果

返回样例

{
  "code": 200,// 返回码,详见返回码说明
  "msg": "成功",// 返回码对应描述
  "taskNo": "043439882226367117195632",// 本次请求号
  "data": {
    "taskId": "xxxx" //用于获取结果
  }
}

获取结果

请求参数

名称 类型 必须 说明
taskId String 提交请求接口返回的taskId

返回样例

{
  "code": 200,//返回码,详见返回码说明
  "msg": "成功",//返回码对应描述
  "taskNo": "571436032193067500962066",//本次请求号
  "data": {
    "resultCode": "0",//任务状态,0:处理成功;1:处理中
    "description": "这张图里面有:\n\n1. 一个人正在讲台上讲话, xxxxxx",//针对输入的 question 问题,对图片内容进行分析后输出的答案
    "resultMsg": "处理成功" //任务状态描述
  }
}

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。