- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

【2020华为云AI实战营】实战营第五章学习总结

womoyu 发表于 2020/08/18 11:08:45 2020/08/18

【摘要】我是第五章OCR才入实战营学习的，没想到自己能从头到尾完成了课程与作业打卡。作为非科班历史系专业学生，对人工智能仅止步于听闻其能改变我们的世界，直到遇到华为云AI实战营让我也能零基础学习。从第五章学起我一开始是非常担忧的，害怕跟不上别的同学学习进度。但是非常感谢小助手1号，鼓励我说尝试从第五章同步跟着学，兑换积分后还送了我一个云宝和modelarts帽子(开心)。零一老师的直播课让我受益匪浅...

我是第五章OCR才入实战营学习的，没想到自己能从头到尾完成了课程与作业打卡。作为非科班历史系专业学生，对人工智能仅止步于听闻其能改变我们的世界，直到遇到华为云AI实战营让我也能零基础学习。从第五章学起我一开始是非常担忧的，害怕跟不上别的同学学习进度。但是非常感谢小助手1号，鼓励我说尝试从第五章同步跟着学，兑换积分后还送了我一个云宝和modelarts帽子(开心)。零一老师的直播课让我受益匪浅，笔记写了满满好几页，有空我都会发上来大家一起相互学习。除此之外华为云论坛里的各位都是人才，说话又好听，答疑解惑很及时（专业团队必须夸一下）！

预热结束（收！），下面开始正经的第五章OCR学习总结，主要是一个学习梳理，学过的同志们也可以一起来复习复习哈！

第五章课程中分为三大节，分别是OCR介绍、CTPN算法完成文字检测、CTPN算法完成字符识别，先来看看第一个OCR介绍：

OCR介绍

光学字符识别（英语：Optical Character Recognition，OCR）是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。发展时间较长，使用很普遍。

OCR流程中使用深度学习方法，采用文字区域检测+字符识别算法。

什么是文字区域检测呢？

将图片中出现的文本位置检测出来，但文本可能存在不同语言，不同文字大小，不同角度倾斜，不同程度遮挡等情况。目前常见的文字检测算法有CTPN、EAST与PixelLink。CTPN是目前使用广泛的文字检测算法，问题又来了：什么是CTPN？

划知识点了（加粗表示）：CTPN网络结合了CNN与LSTM深度网络，通过固定宽度的anchor提取proposal，能有效的检测出复杂场景的横向分布的文字区域，不定长度文本识别效果较好，是目前使用广泛的文字检测算法。

文字区域检测后，接下来就是字符识别算法，将文本区域的字符识别出来。通过深度神经网络对目标区域进行特征提取，然后对固定特征进行提取和比对，得出识别结果。采用CRNN+CTC，第二个知识点：CRNN卷积循环神经网络，将特征提取，序列建模以及转录整合到统一的模型框架中。CRNN网络分为：卷积层、循环层和转录层三部分，CTC为无词典的转录方式，不会被局限在预定义词汇范围中。

后面介绍了OCR开源资源Tesseract与MNIST 手写数字数据集、COCO-text、CTW 中文街景数据集，还有OCR面临的挑战，特别是中文的识别难度比英文大，还有多语言混合也是非常复杂。

CTPN算法完成文字检测

这是一个实操案例，通过这个案例更了解CTPN模型，在这个案例中提供了两种网络结构，如下图：

这一部分其实我不太懂，希望能有同学老师来指导下，后续还得多补充多学习。

CTPN算法完成字符识别

这一节中也是一个实战案例，字符识别中采用CRNN卷积循环神经网络,下面是它的网络结构图：

图内分为三个过程：卷积层提取特征，循环层深度双向LSTM，转录层将RNN输出做softmax。

第一次写博客记录学习笔记，感谢您的阅读，我会继续努力和大家一起进步！

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

【2020华为云AI实战营】实战营第五章学习总结

OCR介绍

CTPN算法完成文字检测

CTPN算法完成字符识别

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

【2020华为云AI实战营】实战营第五章学习总结

OCR介绍

CTPN算法完成文字检测

CTPN算法完成字符识别

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品