华为云文字识别服务产品优势、应用场景、典型案例和未来之路(OCR系列三)
本文为OCR文字识别系列的第三篇,主要讲的华为云OCR文字识别服务的产品优势和应用场景,典型的行业落地方案,以及我们下一步要的事情,有些事情也是人工智能行业本身需要解决的。现在人工智能虽然很火,但是能落地的场景还是比较少的,能大规模落地的场景更是少之又少。
前几年我们开始做文字识别的时候我个人觉得这个任务很low,虽然说技术类似,但没有人脸识别、自动驾驶等,听着那么高大上。但是事实证明,文字识别是一个非常适合落地的场景,现在也是我们部门的一个明星产品之一,应用的范围非常的广,需求非常的大。
文字识别应用的场景非常的广,基本上所有用到文字的领域都需要文字识别。比如说是物流与制造业,金融保险,医疗教育,政务政法,互联网等,我们的产品基本上在这几个方面都有应用。
我们的文字识别服务有如下的特点,首先的识别精度高,证件和票据类的识别率在很多场景都能达到99%以上,数据安全和端云协同前面已经提过了。我们还有高适应性,比如说支持错行、盖章、倾斜、文字叠加、反光、任意角度等复杂场景,同时多种易用的SDK。很多时候你的产品再好,不好用,消费者也是不认可的。最后就是高可用,基本上可以支持每月十亿级或者更高的调用量。
首先的落地场景是医疗保险理赔场景,需要将身份证、银行卡、医疗票据、医疗检验单等通过扫描仪、手机等转化为数字信息,然后传到云上。OCR识别后返回结果,存入数据库。这个可以大幅度的提高数据录入效率,改善用户体验,同时降低人工成本,其实很多时候,人工智能并不能达到100%的识别率,也不能取代人工,但是可以大幅度的降低人力成本,提高录入效率。
下面的一个实际案例是新疆的一个保险公司,大家可以看到这张图,非常复杂,里面有维吾尔文、中文等;同时有翻转、错行、盖章干扰等等。客户额在用我们的产品之前,整个理赔时间大概需要4到6天,用了我们的产品之后,大概整个理赔时间缩短到一天之内。而且我们的OCR识别可以24小时不中断的工作。同时呢,OCR可以结合智能外呼、NLP等成为行业解决方案,进一步给客户带来价值。
下一个是医疗检验单OCR识别,这个也是我们的一家客户,他们现在的情况是票据种类繁多,无统一标准。基本都是护士或者医生人工申核、录入,成本非常高。用了我们的产品后,基本上可以支持上千家医院的录入识别。同时能够支持翻拍,下翻转等场景。其实这里也涉及到人工智能的一个问题,就是大家可以看到,我反复的提到翻转、任意角度检测等,就是我们在做产品的时候需要构建几个核心模型。因为做产品不像发论文一样可以不停的试模型,这几个模型需要足够鲁棒来适配各种场景。这样才能够快速,满足产品的需求,即使我们有我们团队有三分之一的博士,我们依然也看护来太多的模型。因为在产品线,每个人的事情都非常多,我们的核心工作是提供产品。
下一个是互联网电商,比如说是包含电商截图、电脑截图、手机截图、QQ、微信聊天截图、广告设计、宣传海报等。我们可以支持多种图片格式,包括gif,WEBP等不常用的格式。客户可以用这些OCR识别的结果,自动筛选,过滤违禁词,挖掘商品价值,也可以提取图片上的联系人信息,电话,省市区等详细地址等。相信大家在寄快递的时候一定遇到这个场景,就是我们可以简单的直接上传一张我们的地址。然后会快递公司APP会自动会把这些信息取出来,背后用到的其实就是类似的OCR产品。
这个是财务报销场景,相信在座的很多人过来都是公费出差的。大家出差之后一定会把自己的出租车票啊、火车票啊、机票、酒店发票等贴在一张纸上交给财务,财务审核后会去报销,其实用到的就是类似的一个场景。
华为OCR可以支持一图多票,将各种不同的票从一张纸上切割出来,然后进行识别。这其中包含并不限于机票或车票、医疗发票、驾驶证、行驶证、银行卡、护照、泰国证件等。可以大幅度的提高财务的报销效率,降低人力成本。
最后我要提的一个应用场景是海外证件识别。大家可以看一下左上角第一张图,这是***的身份证,其实现在很多国家并不像我国这么先进,***的身份证很多还没有芯片的。他们有的身份证信息也是需要手写上去的,当时为了做这个服务,我们***的一线,找了很多当地的人进行标注,最终的我们的准确率达到了96%左右。现在这个服务已经在***很多大公司大规模地应用起来了。其他的,比如说还有泰国的身份证,马来的身份证,阿拉伯的客户等,这些都是需要支撑的。通过本系列前面提到的自动化能力,我们可以一到两周快速构建POC。精度也很高,客户的满意度也非常的高。
未了,我要提一下我们未来的一些路,我们要持续突破新场景,比如分子式、公式,当然这个是广义的OCR。以及模型的鲁棒性进一步提高,比如说我们希望把我们的卡证类和票据类的API归一。训练和推理速度继续提升,训练速度的提升意味着产品更快的迭代,推理速度的提升,则意味着成本大规模的降低。小样本学习、无监督学习、迁移学习,这样我们就可以在客户没有数据,或者非常少的数据情况下,迅速迭代产品。还有一个是手写体识别。
难度非常的高,其实不只是OCR,很多计算机视觉或者人工智能领域都有很多场景,是现在用深度学习没有办法解决的。我们人类识别东西的时候会结合各种信息,同时根据我们的经验最终得到一个结论,现在的深度学习远远达不到这个程度,即使多模态也远远不行,所以说后续的人工智能一定是结合某个领域专业知识的人工智能。
- 点赞
- 收藏
- 关注作者
评论(0)