【2020华为云AI实战营】实战营第五章学习总结

举报
womoyu 发表于 2020/08/18 11:08:45 2020/08/18
【摘要】 我是第五章OCR才入实战营学习的,没想到自己能从头到尾完成了课程与作业打卡。作为非科班历史系专业学生,对人工智能仅止步于听闻其能改变我们的世界,直到遇到华为云AI实战营让我也能零基础学习。从第五章学起我一开始是非常担忧的,害怕跟不上别的同学学习进度。但是非常感谢小助手1号,鼓励我说尝试从第五章同步跟着学,兑换积分后还送了我一个云宝和modelarts帽子(开心)。零一老师的直播课让我受益匪浅...

我是第五章OCR才入实战营学习的,没想到自己能从头到尾完成了课程与作业打卡。作为非科班历史系专业学生,对人工智能仅止步于听闻其能改变我们的世界,直到遇到华为云AI实战营让我也能零基础学习。从第五章学起我一开始是非常担忧的,害怕跟不上别的同学学习进度。但是非常感谢小助手1号,鼓励我说尝试从第五章同步跟着学,兑换积分后还送了我一个云宝和modelarts帽子(开心)。零一老师的直播课让我受益匪浅,笔记写了满满好几页,有空我都会发上来大家一起相互学习。除此之外华为云论坛里的各位都是人才,说话又好听,答疑解惑很及时(专业团队必须夸一下)!

预热结束(收!),下面开始正经的第五章OCR学习总结,主要是一个学习梳理,学过的同志们也可以一起来复习复习哈!

第五章课程中分为三大节,分别是OCR介绍、CTPN算法完成文字检测、CTPN算法完成字符识别,先来看看第一个OCR介绍:

OCR介绍

光学字符识别(英语:Optical Character RecognitionOCR)是指对文本资料图像文件进行分析识别处理,获取文字及版面信息的过程。发展时间较长,使用很普遍。

OCR流程中使用深度学习方法,采用文字区域检测+字符识别算法。

什么是文字区域检测呢?

将图片中出现的文本位置检测出来,但文本可能存在不同语言,不同文字大小,不同角度倾斜,不同程度遮挡 等情况。目前常见的文字检测算法有CTPN、EAST与PixelLink。CTPN是目前使用广泛的文字检测算法,问题又来了:什么是CTPN?

划知识点了(加粗表示):CTPN网络结合了CNN与LSTM深度网络,通过固定宽度 的anchor提取proposal,能有效的检测出复杂场景的横向 分布的文字区域,不定长度文本识别效果较好,是目前 使用广泛的文字检测算法。

文字区域检测后,接下来就是字符识别算法,将文本区域的字符识别出来。通过深度神经网络对目标区域进行特征提取,然后对固定特征进行提取和比对,得出识别结果。采用CRNN+CTC,第二个知识点:CRNN卷积循环神经网络,将特征提取,序列建模以及 转录整合到统一的模型框架中。CRNN网络分为:卷积层、循环层和转录层三部分,CTC为无词典的转录方式, 不会被局限在预定义词汇范围中。

后面介绍了OCR开源资源Tesseract与MNIST 手写数字数据集、COCO-text、CTW 中文街景数据集,还有OCR面临的挑战,特别是中文的识别难度比英文大,还有多语言混合也是非常复杂。

CTPN算法完成文字检测

这是一个实操案例,通过这个案例更了解CTPN模型,在这个案例中提供了两种网络结构,如下图:

这一部分其实我不太懂,希望能有同学老师来指导下,后续还得多补充多学习。

CTPN算法完成字符识别

这一节中也是一个实战案例,字符识别中采用CRNN卷积循环神经网络,下面是它的网络结构图:

图内分为三个过程:卷积层提取特征,循环层深度双向LSTM,转录层将RNN输出做softmax。


第一次写博客记录学习笔记,感谢您的阅读,我会继续努力和大家一起进步!

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

举报
请填写举报理由
0/200