【2020华为云AI实战营】实战营第五章学习总结
我是第五章OCR才入实战营学习的,没想到自己能从头到尾完成了课程与作业打卡。作为非科班历史系专业学生,对人工智能仅止步于听闻其能改变我们的世界,直到遇到华为云AI实战营让我也能零基础学习。从第五章学起我一开始是非常担忧的,害怕跟不上别的同学学习进度。但是非常感谢小助手1号,鼓励我说尝试从第五章同步跟着学,兑换积分后还送了我一个云宝和modelarts帽子(开心)。零一老师的直播课让我受益匪浅,笔记写了满满好几页,有空我都会发上来大家一起相互学习。除此之外华为云论坛里的各位都是人才,说话又好听,答疑解惑很及时(专业团队必须夸一下)!
预热结束(收!),下面开始正经的第五章OCR学习总结,主要是一个学习梳理,学过的同志们也可以一起来复习复习哈!
第五章课程中分为三大节,分别是OCR介绍、CTPN算法完成文字检测、CTPN算法完成字符识别,先来看看第一个OCR介绍:
OCR介绍
光学字符识别(英语:Optical Character Recognition,OCR)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。发展时间较长,使用很普遍。
OCR流程中使用深度学习方法,采用文字区域检测+字符识别算法。
什么是文字区域检测呢?
将图片中出现的文本位置检测出来,但文本可能存在不同语言,不同文字大小,不同角度倾斜,不同程度遮挡 等情况。目前常见的文字检测算法有CTPN、EAST与PixelLink。CTPN是目前使用广泛的文字检测算法,问题又来了:什么是CTPN?
划知识点了(加粗表示):CTPN网络结合了CNN与LSTM深度网络,通过固定宽度 的anchor提取proposal,能有效的检测出复杂场景的横向 分布的文字区域,不定长度文本识别效果较好,是目前 使用广泛的文字检测算法。
文字区域检测后,接下来就是字符识别算法,将文本区域的字符识别出来。通过深度神经网络对目标区域进行特征提取,然后对固定特征进行提取和比对,得出识别结果。采用CRNN+CTC,第二个知识点:CRNN卷积循环神经网络,将特征提取,序列建模以及 转录整合到统一的模型框架中。CRNN网络分为:卷积层、循环层和转录层三部分,CTC为无词典的转录方式, 不会被局限在预定义词汇范围中。
后面介绍了OCR开源资源Tesseract与MNIST 手写数字数据集、COCO-text、CTW 中文街景数据集,还有OCR面临的挑战,特别是中文的识别难度比英文大,还有多语言混合也是非常复杂。
CTPN算法完成文字检测
这是一个实操案例,通过这个案例更了解CTPN模型,在这个案例中提供了两种网络结构,如下图:
这一部分其实我不太懂,希望能有同学老师来指导下,后续还得多补充多学习。
CTPN算法完成字符识别
这一节中也是一个实战案例,字符识别中采用CRNN卷积循环神经网络,下面是它的网络结构图:
图内分为三个过程:卷积层提取特征,循环层深度双向LSTM,转录层将RNN输出做softmax。
第一次写博客记录学习笔记,感谢您的阅读,我会继续努力和大家一起进步!
- 点赞
- 收藏
- 关注作者
评论(0)