yujingv的论坛回复_云社区-华为云

华为云ID： yujingv 第一章企业应用最广泛的AI案例开发：OCR文字识别笔记第1章企业应用最广泛的AI案例开发：OCR文字识别1.1 OCR介绍1. 概述2. OCR介绍3. OCR完成流程4. 文字区域检测5. 字符识别6. OCR相关的开源资源7. OCR面对的挑战 1.OCR简介 OCR光学字符识别发展时间较长使用普遍 2.OCR流程机器学习图像预处理：去噪、灰度化、图像增强等文本检测：滑动窗口算法遍历整张图片字符分类：划分单个字符，识别单字深度学习方法文本区域检测：将图片中出现的文本位置检测处理，可能存在不同语言，不同文字大小，不同角度倾斜，不同程度遮挡等情况 CTPN：CTPN网络结合了CNN与LSTM深度网络，通过固定宽带的anchor提前proposal，能有效的检测出复杂场景的横向分布的文字区域，不定长度文本识别效果较好，是目前使用广泛的文字检测算法。 EAST：网络分为三部分，特征提取，特征融合和输出层 PixelLink：采用了实例分割的方法完成文本区域检测，通过将统一实例中的像素链接，通过链接区域分割出文本实例，然后从分割结果中提取文本边界框，进行回归计算。字符识别算法：将文本区域的字符识别出来。通过深度神经网络对目标区域进行特征提取，然后对固定特征进行提取和比对，得出识别结果。 CRNN+CTC： CRNN卷积循环神经网络，将特征提取，序列建模以及转录整合到统一的模型框架中。CRNN网络分为：卷积层、循环层和转录层三部分，CTC为无词典的转录方式，不会被局限在预定义词汇范围中。 6.OCR相关的开源资源 Tesseract 2006年开源的光学字符识别引擎，因为开源使用以及精准的检测效果，Tesseract的使用十分普遍。 MNIST 手写数字数据集 MNIST数据集包括了大量的手写数字图片，包括6万张训练数据集和1万张测试数据集，是广泛使用的开源数据集之一，很多深度学习任务的入门练习数据集。 COCO-text 包含日常生活里复杂场景中的文字，数据集提供了边界框的位置，区分了打印文字和手写文字，清晰和模糊的文字，文字的内容等标注信息，数据集包括了超过173,589标注了的文本区域，超过63,686张图片。 CTW中文街景数据集数据集中包含了32285张图片，共计1018402个汉字，3850个汉字类别。标注信息包括了文字行的边界框文字单字的边界框是否遮挡，扭曲是打印文字或者手写文字等 7.OCR面临的挑战汉字字符识别汉字字符的识别难度相比较英文字符要更大，字符的识别过程可以近似为分类，引文字符的分类数远小于汉字单字的数量，所以分类的难度更高。除此之外，多语言混合也是字符分类任务中的挑战，字符识别更加复杂。手写字符识别印刷字体遵循固定的规则，而手写字符的识别相比较就更加复杂，每个人的书写习惯都不同，同一个人书写同样的字符也不完全相同，识别难度大大增加。小结： OCR机器学习和深度学习对比，了解了OCR的实现步骤以及算法1.2 华为云OCR服务调用指南第一步：准备工作 python + pycharm 第二步：申请服务第三步：下载SDK 第四步：配置SDK OCRDemo.py /v1.0/ocr/generla-text 第五步：运行案例1.3 CTPN+CRNN 算法端到端实现文字识别目录 1.OCR简介 2.CTPN与CRNN 3. 动手实践OCR简介 OCR光学字符识别发展时间较长使用普遍OCR流程深度学习方法文字区域检测：将图片中出现的文本位置检测出来，可能存在不同语言，不同文字大小，不同角度倾斜，不同程度遮挡等情况。 CTPN 字符识别算法：将文本区域的字符识别出来。通过深度神经网络对目标区域进行特征提取，然后对固定特征进行提取和比对，得出识别结果。CTPN 网络结构 CNN-VGG16 RNN FCCRNN 卷积循环神经网络卷积层特征提取循环层深度双向LSTM 转录层将RNN输出做softmax完整的端到端OCR流程了解了文本区域以及字符识别后，下面详细讲解完整的端到端OCR流程：（1）准备一张含有文字的原图；（2）对原图进行文字位置的检测，检测结果可能是水平矩形框，也可能是倾斜矩形框；（3）从原图中把文字框对应的图片切下来，并旋转正，得到水平的文字块切片图；（4）对每个文字块切片图依次进行字符识别，每个切片图的识别结果汇总起来，就得到原图的文字识别结果。因此完整的端到端OCR流程是：输入原图 -> 文字检测 ->文字块切片 -> 字符识别 -> 识别结果汇总。动手实践：本次案例地址：https://modelarts-labs-bj4.obs.cn-north-4.myhuaweicloud.com/notebook/DL_ctpn_crnn/DL_ocr.zip