openclaw案例参考-华为云OCR-skills识别图片-使用技能从图片中提取文本
1.背景
在日常工作中,大量的关键信息仍然以“图像”的形式存在——扫描版的合同、拍照留存的纸质票据、截图中的表格数据……对于人眼来说不过是一瞥之间,但对于绝大多数AI助手而言,却如同一道无法逾越的鸿沟。它们“看不见”,也就“读不懂”,更谈不上帮你处理和分析。
当用户上传一张“合同照片”或“营业执照”时,普通的文本模型无法直接读取其内容。这正是OCR(光学字符识别)技术需要发挥作用的地方。
通过将华为云OCR技能接入OpenClaw,OpenClaw将从一个“无法识别图片文字”的文本助手,进化为真正拥有“火眼金睛”的智能工作伙伴——能看、能理解、能行动。这种能力在实际业务场景中具有广泛的应用价值,尤其在信息自动化提取与处理方面,能大幅提升工作效率、降低人工成本。
2.场景描述
某三甲医院检验科每天处理数千份检验报告单(血常规、肝功能、心肌酶谱等),版式各异:既有LIS系统打印的标准模板,也有手写补录的纸质单,还有外院送检的扫描件。每份报告单包含数十项指标(项目名称、结果、单位、参考区间、↑↓标识)。
解决方案(OpenClaw + 华为云OCR+Skills)
自动识别:上传报告单图片,华为云行业OCR精准解析表格结构,提取项目名称、结果、单位、参考区间、箭头标识。
3.使用OpenClaw搭建个人AI助手(飞书)
4.部署华为云OCR模型
快速部署HunyuanOCR模型:
https://pep.huaweisre.com/#/pepmgtcontentwebsite/page/preview?id=594845319754244096&location=www.huaweicloud.com/solution/implementations/quickly-deploy-the-hunyuanocr-model.html
须知:
1.该解决方案默认创建9997端口的安全组规则(用来访问Xinference)
2.该解决方案部署成功后,环境初始化预计15-20分钟,受网络、带宽影响,部署时间会有波动感部署完成之后方可正常访问
步骤一 访问Xinference WebUI页面:打开浏览器,访问 快速部署HunyuanOCR模型 输出事件中的http地址

步骤二 访问HunyuanOCR模型 WebUI页面:按下图所示依次点击“Running Models” “Image Models”访问Actions图标即可访问

步骤三 使用HunyuanOCR模型:按下图所示点击“通过api访问”,后复制API documentation中的地址

5.飞书客户端
前置:需要导入配套 hw_ocr skills 技能到工作区目录


须知:
问答使用ocr的服务如遇到ip无法连通的情形,请参考如下:
解决方案:登录部署龙虾shell服务器
查看ip:

执行如下命令:
nmap -p 9997 199.xx.xx.1xx
1.如果为STATE为filtered,则需要对云服务器-安全组开放9997端口协议

1.如果为STATE为open,则说明云服务器已开放9997端口协议,服务可正常访问

- 点赞
- 收藏
- 关注作者
评论(0)