建议使用以下浏览器,以获得最佳体验。 IE 9.0+以上版本 Chrome 31+ 谷歌浏览器 Firefox 30+ 火狐浏览器
请选择 进入手机版 | 继续访问电脑版
设置昵称

在此一键设置昵称,即可参与社区互动!

确定
我再想想
选择版块
标签
您还可以添加5个标签
  • 没有搜索到和“关键字”相关的标签
  • 云产品
  • 解决方案
  • 技术领域
  • 通用技术
  • 平台功能
取消

蜡笔不辣

发帖: 22粉丝: 4

发消息 + 关注

发表于2020年11月12日 20:24:27 134 4
直达本楼层的链接
楼主
显示全部楼层
[AI人工智能全栈成长计划] 【问答官3阶段】OCR使用流程及其优势

OCR光学字符识别,我们使用OCR能减少大量人工劳动能力,那么使用OCR有哪些流程?

我们为什么要是使用OCR,它的优势在哪里?

举报
分享

分享文章到朋友圈

分享文章到微博

franco52576

发帖: 25粉丝: 0

发消息 + 关注

发表于2020年11月12日 21:29:07
直达本楼层的链接
沙发
显示全部楼层


一个OCR识别系统,其目的很简单,只是要把影像作一个转换,使影像内的图形继续保存、有表格则表格内资料及影像内的文字,一律变成计算机文字,使能达到影像资料的储存量减少、识别出的文字可再使用及分析,当然也可节省因键盘输入的人力与时间。

从影像到结果输出,须经过影像输入、影像前处理、文字特征抽取、比对识别、最后经人工校正将认错的文字更正,将结果输出。

一、影像输入

欲经过OCR处理的标的物须透过光学仪器,如影像扫描仪、传真机或任何摄影器材,将影像转入计算机。科技的进步,扫描仪等的输入装置已制作的愈来愈精致,轻薄短小、品质也高,对OCR有相当大的帮助,扫描仪的分辨率使影像更清晰、扫除速度更增进OCR处理的效率。

影像预处理:影像预处理是OCR系统中,须解决问题最多的一个模块。影像须先将图片、表格及文字区域分离出来,甚至可将文章的编排方向、文章的提纲及内容主体区分开,而文字的大小及文字的字体亦可如原始文件一样的判断出来。

对待识别图像进行如下预处理,可以降低特征提取算法的难度,并能提高识别的精度。

二值化:由于彩色_图像所含信息量过于巨大,在对图像中印刷体字符进行识别处理前,需要对图像进行二值化处理,使图像只包含黑色的前景信息和白色的背景信息,提升识别处理的效率和精确度。

图像降噪:由于待识别图像的品质受限于输入设备、环境、以及文档的印刷质量,在对图像中印刷体字符进行识别处理前,需要根据噪声的特征对待识别图像进行去噪处理,提升识别处理的精确度。

倾斜校正:由于扫描和拍摄过程涉及人工操作,输入计算机的待识别图像或多或少都会存在一些倾斜,在对图像中印刷体字符进行识别处理前,就需要进行图像方向检测,并校正图像方向。

文字特征抽取:单以识别率而言,特征抽取可说是 OCR的核心,用什么特征、怎么抽取,直接影响识别的好坏,也所以在OCR研究初期,特征抽取的研究报告特别的多。而特征可说是识别的筹码,简易的区分可分为两类:一为统计的特征,如文字区域内的黑/白点数比,当文字区分成好几个区域时,这一个个区域黑/白点数比之联合,就成了空间的一个数值向量,在比对时,基本的数学理论就足以应付了。而另一类特征为结构的特征,如文字影像细线化后,取得字的笔划端点、交叉点之数量及位置,或以笔划段为特征,配合特殊的比对方法,进行比对,市面上的线上手写输入软件的识别方法多以此种结构的方法为主。

对比数据库:当输入文字算完特征后,不管是用统计或结构的特征,都须有一比对数据库或特征数据库来进行比对,数据库的内容应包含所有欲识别的字集文字,根据与输入文字一样的特征抽取方法所得的特征群组。

二、对比识别

这是可充分发挥数学运算理论的一个模块,根据不同的特征特性,选用不同的数学距离函数,较有名的比对方法有,欧式空间的比对方法、松弛比对法(Relaxation)、动态程序比对法(Dynamic Programming,DP),以及类神经网络的数据库建立及比对、HMM(Hidden Markov Model)…等著名的方法,为了使识别的结果更稳定,也有所谓的专家系统(Experts System)被提出,利用各种特征比对方法的相异互补性,使识别出的结果,其信心度特别的高。

字词后处理:由于OCR的识别率并无法达到百分之百,或想加强比对的正确性及信心值,一些除错或甚至帮忙更正的功能,也成为OCR系统中必要的一个模块。字词后处理就是一例,利用比对后的识别文字与其可能的相似候选字群中,根据前后的识别文字找出最合乎逻辑的词,做更正的功能。

字词数据库:为字词后处理所建立的词库。

三、人工校正

OCR最后的关卡,在此之前,使用者可能只是拿支鼠标,跟着软件设计的节奏操作或仅是观看,而在此有可能须特别花使用者的精神及时间,去更正甚至找寻可能是OCR出错的地方。一个好的OCR软件,除了有一个稳定的影像处理及识别核心,以降低错误率外,人工校正的操作流程及其功能,亦影响OCR的处理效率,因此,文字影像与识别文字的对照,及其屏幕信息摆放的位置、还有每一识别文字的候选字功能、拒认字的功能、及字词后处理后特意标示出可能有问题的字词,都是为使用者设计尽量少使用键盘的一种功能,当然,不是说系统没显示出的文字就一定正确,就像完全由键盘输入的工作人员也会有出错的时候,这时要重新校正一次或能允许些许的错,就完全看使用单位的需求了。

四、结果输出

有人只要文本文件作部份文字的再使用之用,所以只要一般的文字文件、有人要漂漂亮亮的和输入文件一模一样,所以有原文重现的功能、有人注重表格内的文字,所以要和Excel等软件结合。无论怎么变化,都只是输出档案格式的变化而已。如果需要还原成原文一样格式,则在识别后,需要人工排版,耗时耗力。


点赞 评论 引用 举报

Felix666

发帖: 51粉丝: 2

发消息 + 关注

发表于2020年11月13日 18:21:42
直达本楼层的链接
板凳
显示全部楼层

OCR在需要提取大量纸面信息,特别是在特定场景下需要提取信息时是非常好用的!

举个栗子:

财务人员要将员工发票录入系统,按照传统的方式,不仅速度低,而且易出错。如果使用OCR技术,由于发票本身是结构化的表格,所以读取起来准确度很高,速度也很快,可以极大地提高工作效率。

使用OCR的流程:先在华为云中开通一个OCR服务,然后下载并配置SDK,调用即可。

点赞 评论 引用 举报

bjxingch

发帖: 24粉丝: 1

发消息 + 关注

更新于2020年11月27日 22:27:54
直达本楼层的链接
地板
显示全部楼层

OCR的优势:可以帮助用户自动采集关键数据,打造智能化业务系统,提升业务效率。

OCR的流程:这里我理解的是使用服务的流程,

请参考

https://support.huaweicloud.com/productdesc-ocr/ocr_01_0005.html

  1. 申请服务

    用户可通过管理控制台申请服务。

    服务只需要开通一次即可,后面使用时无需再申请。

  2. 获取请求认证

    调用OCR的API有如下两种认证方式,请任选其中一种进行认证鉴权。
    Token认证:通过Token认证调用请求。
    AK/SK认证:通过AK/SK加密调用请求。AK/SK认证安全性更高。
  3. 调用API

    OCR以API的方式提供服务。

  4. 查看服务使用信息

  • 用户可以在OCR控制台查看服务调用成功的次数。

  • 用户可以在云监控控制台查看服务调用成功的次数和失败的次数等历史数据。

点赞 评论 引用 举报

yzx

发帖: 10粉丝: 3

发消息 + 关注

发表于2020年11月29日 20:51:21
直达本楼层的链接
5#
显示全部楼层

目前,OCR文字识别技术的手段多种多样,各个识别过程也是不尽相同,这里简要介绍文字识别方法的一般流程。

  • 识别出文字区域(通过滑动窗口算法,遍历整个图片,有监督的标记训练样本特征进行判断,找到目标图片进行矩形化摘取出来)

  • 对文字区域矩形分割,拆分成不同的字符(在矩形中做一维滑动窗口移动,判断字符间间距,对字符进行划分)

  • 字符分类(对划分好的字符根据监督算法,对字符进行预测)

  • 识别出文字(最终识别出整个字符)

  • 后处理识别矫正,对识别出的文字进行后续处理和校正。比如,考虑单词Because,我们设计的识别模型把它识别为8ecause,那么我们就可以用语法检测器去纠正这种拼写错误,并用B代替8并完成识别矫正。这样子,整个OCR流程就走完了。
    下面就具体谈谈印刷体文字识别手写体文字识别的方法。

OCR文字识别技术的应用领域和价值

  • 证件识别、车牌识别

  • 智慧医疗

  • pdf文档转换为Word

  • 拍照识别、截图识别、网络图片识别

  • 无人驾驶

  • 无纸化办公、稿件编辑校对

  • 物流分拣

  • 舆情监控

  • 文档检索

  • 字幕识别

  • 文献资料检索等


点赞 评论 引用 举报

游客

富文本
Markdown
您需要登录后才可以回帖 登录 | 立即注册