建议使用以下浏览器,以获得最佳体验。 IE 9.0+以上版本 Chrome 31+ 谷歌浏览器 Firefox 30+ 火狐浏览器
请选择 进入手机版 | 继续访问电脑版
设置昵称

在此一键设置昵称,即可参与社区互动!

确定
我再想想
选择版块
标签
您还可以添加5个标签
  • 没有搜索到和“关键字”相关的标签
  • 云产品
  • 解决方案
  • 技术领域
  • 通用技术
  • 平台功能
取消

7号小助手

发帖: 67粉丝: 213

级别 : 版主

发消息 + 关注

更新于2020年11月09日 09:37:15 1950 174
直达本楼层的链接
楼主
显示全部楼层
[活动打卡] 【AI人工智能全栈成长计划】第三阶段·每周学习笔记打卡帖


为了巩固大家的学习成果,紧跟学习进度

请将需要完成的每周学习笔记按要求回复到本帖下方

按要求格式回复即可获得积分累计阶段奖品,还能有机会获得附加幸运奖哦~


征集时间

2020.11.09-2020.11.30 23:59

征集要求

在本帖中,回复自己本周课程内容的学习笔记

回复格式:华为云ID+第几周笔记+笔记内容,并分享些读书心得(字数≥200字)

示例图如下:

截图.PNG




奖励方式

每周每篇有效笔记可获得5积分

阶段学习将以积分排行榜的形式,对前300名小伙伴进行奖励哦!

此外还有附加奖励,每周在本周内提交学习笔记的用户中,抽取10位幸运奖

奖励华为云定制文件收纳包

 文件收纳包.jpg


积分排行榜奖品

奖品展示全.PNG



 活动注意事项

1. 学习任务提交后,小助手会在本阶段学习周期内,按序完成审核,并增加活动积分;

2. 本次活动通过完成提交学习笔记任务,可获得的积分上限为5分/每周;

3. 请务必按照上述要求提交内容,以免影响积分增加;

4. 若积分值相同则以完成学习任务的时间先后排序,其中任务完成时间的判定优先级为:结业考核>问答官排位赛>每周学习笔记>每章随堂测验打卡

5. 其他积分获取方式请查看活动社群公告。


想了解更多关于全栈成长计划课程内容请移步主帖:

https://bbs.huaweicloud.com/forum/thread-74751-1-1.html


除了本帖任务,其他学习任务可以通过以下链接进行查看:

查看随堂测验打卡帖:AI人工智能全栈成长计划】第三阶段·每章随堂测验打卡帖

查看问答官排位赛活动帖:AI人工智能全栈成长计划】第三阶段·问答官排位赛活动帖



举报
分享

分享文章到朋友圈

分享文章到微博

云水不言

发帖: 0粉丝: 1

级别 : 中级会员

发消息 + 关注

更新于2020年11月09日 16:36:10
直达本楼层的链接
沙发
显示全部楼层

华为云ID:yun1025933139

笔记:第1章 企业应用最广泛的AI案例开发:OCR文字识别

  1. OCR介绍

    OCR 是英文Optical Character Recognition的缩写,意思是光学字符识别,也可简单地称为文字识别,是文字自动输入的一种方法。它通过 扫描 和摄像等光学输入方式获取纸张上的文字图像信息,利用各种 模式 识别算法分析文字形态特征 可以将票据、报刊、书籍、文稿及其它印刷品转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。可应用于银行票据、大量文字资料、档案卷宗、文案的录入和处理领域。适合于银行、税务等行业大量票据表格的自动扫描识别及长期存储。

  2. OCR流程

    图像预处理:识别文字前,我们要对原始图片进行预处理,以便后续的特征提取和学习。这个过程通常包含:灰度化、二值化、降噪、倾斜矫正、文字切分等子步骤。

    灰度化(gray processing):在RGB模型中,如果R=G=B时,则彩色表示一种灰度颜色,其中R=G=B的值叫灰度值,因此,灰度图像每个像素只需一个字节存放灰度值(又称强度值、亮度值),灰度范围为0-255。说通俗一点,就是将一张彩**片变为黑白图片。灰度化一般有分量法、最大值法、平均值法、加权平均法四种方法对彩**像进行灰度化

    字符切分和字符识别。

  3. OCR资源

    文字区域检测算法:CTPN、EAST、PixelLink

    文字识别算法:CRNN+CTC

    开源资源:Tesseract、MNIST、COCO-text、CTW

  4. OCR挑战

    汉字字符识别

    手写字符识别

      

点赞 评论 引用 举报

雨中听雨

发帖: 3粉丝: 0

级别 : 新手上路

发消息 + 关注

发表于2020年11月09日 17:12:28
直达本楼层的链接
板凳
显示全部楼层

华为云ID:xingkong9(实战打卡笔记)


屏幕截图 2020-11-09 170844.png


屏幕截图 2020-11-09 171036.png


点赞 评论 引用 举报

雨中听雨

发帖: 3粉丝: 0

级别 : 新手上路

发消息 + 关注

发表于2020年11月09日 18:27:11
直达本楼层的链接
地板
显示全部楼层

华为云ID:xingkong9

学习笔记

微信图片_20201109182300.jpg


点赞 评论 引用 举报

JeffDing

发帖: 27粉丝: 17

级别 : 高级会员

发消息 + 关注

发表于2020年11月09日 19:48:13
直达本楼层的链接
5#
显示全部楼层

华为云ID:JeffDing+第一周笔记打卡

OCR介绍

OCR 光学字符识别

  • 发展时间较长

  • 使用普遍


机器学习

  • 图像预处理:去噪、灰度化、图像增强等

  • 文本检测:滑动窗口算法遍历整张图片

  • 字符分类:划分单个字符,识别单字


深度学习方法

文字区域检测:将图片中出现的文本位置检测出来,可能存在不同语言,不同文字大小,不同角度倾斜,不同程度遮挡等情况。

  • CTPN

  • EAST

  • PixelLink


CTPN

https://arxiv.org/abs/1609.03605

算法具体细节可以参考论文

CTPN网络结合了CNN与LSTM深度网络,通过固定宽度的anchor提取proposal,能有效的检测出复杂场景的横向分布的文字区域,不定长度文本识别效果较好,是目前使用广泛的文字检测算法。


EAST

https://arxiv.org/abs/1704.03155

算法具体细节可以参考论文

EAST网络分为三部分:特征提取,特征融合和输出层,实现了端到端的文本区域检测,通过FCN网络生成图片文本参数,然后通过NMS筛选,得出检测结果。


PixelLink

https://arxiv.org/abs/1801.01315

算法具体细节可以参考论文

PixelLink算法采用了实例分割的方法完成文本区域检测,通过将统一实例中的像素链接,通过链接区域分割出文本实例,然后从分割结果中提取文本边界框,进行回归计算。


深度学习方法

字符识别算法:将文本区域的字符识别出来。通过深度神经网络对目标区域进行特征提取,然后对固定特征进行提取和比对,得出识别结果。

CRNN+CTC

https://arxiv.org/abs/1507.05717

算法具体细节可以参考论文

CRNN卷积循环神经网络,将特征提取,序列建模以及转录整合到统一的模型框架中。CRNN网络分为:卷积层、循环层和转录层三部分,CTC为无词典的转录方式,不会被局限在预定义词汇范围中。


点赞 评论 引用 举报

yujingv

发帖: 0粉丝: 1

级别 : 注册会员

发消息 + 关注

发表于2020年11月09日 20:05:03
直达本楼层的链接
6#
显示全部楼层

华为云ID: yujingv  第一章企业应用最广泛的AI案例开发:OCR文字识别 笔记


第1章 企业应用最广泛的AI案例开发:OCR文字识别

1.1 OCR介绍

1. 概述

2. OCR介绍

3. OCR完成流程

4. 文字区域检测

5. 字符识别

6. OCR相关的开源资源

7. OCR面对的挑战


 1.OCR简介

   OCR光学字符识别

   发展时间较长

   使用普遍


 2.OCR流程

   机器学习


   图像预处理:去噪、灰度化、图像增强等

   文本检测: 滑动窗口算法遍历整张图片

   字符分类: 划分单个字符,识别单字


   深度学习方法

   文本区域检测:将图片中出现的文本位置检测处理,可能存在不同语言,不同文字大小,不同角度倾斜,不同程度遮挡等情况

     CTPN:CTPN网络结合了CNN与LSTM深度网络,通过固定宽带的anchor提前proposal,能有效的检测出复杂场景的横向分布的文字区域,不定长度文本识别效果较好,是目前使用广泛的文字检测算法。

     EAST:网络分为三部分,特征提取,特征融合和输出层

     PixelLink: 采用了实例分割的方法完成文本区域检测,通过将统一实例中的像素链接,通过链接区域分割出文本实例,然后从分割结果中提取文本边界框,进行回归计算。


   字符识别算法:将文本区域的字符识别出来。通过深度神经网络对目标区域进行特征提取,然后对固定特征进行提取和比对,得出识别结果。

     CRNN+CTC: CRNN卷积循环神经网络,将特征提取,序列建模以及转录整合到统一的模型框架中。CRNN网络分为:卷积层、循环层和转录层三部分,CTC为无词典的转录方式,不会被局限在预定义词汇范围中。


  6.OCR相关的开源资源

    Tesseract

      2006年开源的光学字符识别引擎,因为开源使用以及精准的检测效果,Tesseract的使用十分普遍。


    MNIST 手写数字数据集

      MNIST数据集包括了大量的手写数字图片,包括6万张训练数据集和1万张测试数据集,是广泛使用的开源数据集之一,很多深度学习任务的入门练习数据集。

    COCO-text

      包含日常生活里复杂场景中的文字,数据集提供了边界框的位置,区分了打印文字和手写文字,清晰和模糊的文字,文字的内容等标注信息,数据集包括了超过173,589标注了的文本区域,超过63,686张图片。


    CTW中文街景数据集

      数据集中包含了32285张图片,共计1018402个汉字,3850个汉字类别。标注信息包括了 文字行的边界框 文字单字的边界框 是否遮挡,扭曲 是打印文字或者手写文字等

  7.OCR面临的挑战

    汉字字符识别

      汉字字符的识别难度相比较英文字符要更大,字符的识别过程可以近似为分类,引文字符的分类数远小于汉字单字的数量,所以分类的难度更高。除此之外,多语言混合也是字符分类任务中的挑战,字符识别更加复杂。

    手写字符识别

      印刷字体遵循固定的规则,而手写字符的识别相比较就更加复杂,每个人的书写习惯都不同,同一个人书写同样的字符也不完全相同,识别难度大大增加。

  

  小结:

     OCR机器学习和深度学习对比,了解了OCR的实现步骤以及算法


1.2 华为云OCR服务调用指南

  第一步: 准备工作

    python + pycharm

  第二步: 申请服务


  第三步: 下载SDK

    

  第四步: 配置SDK

    OCRDemo.py

    /v1.0/ocr/generla-text


  第五步:运行案例


1.3 CTPN+CRNN 算法端到端实现文字识别

目录

  1.OCR简介

  2.CTPN与CRNN

  3. 动手实践


OCR简介

  OCR光学字符识别

    发展时间较长

    使用普遍


OCR流程

  深度学习方法

  文字区域检测:将图片中出现的文本位置检测出来,可能存在不同语言,不同文字大小,不同角度倾斜,不同程度遮挡等情况。

    CTPN  

    

    字符识别算法:将文本区域的字符识别出来。通过深度神经网络对目标区域进行特征提取,然后对固定特征进行提取和比对,得出识别结果。


CTPN

  网络结构

    CNN-VGG16

    RNN

    FC


CRNN

  卷积循环神经网络

  卷积层 特征提取

  循环层 深度双向LSTM

  转录层 将RNN输出做softmax


完整的端到端OCR流程

  了解了文本区域以及字符识别后,下面详细讲解完整的端到端OCR流程:

   (1)准备一张含有文字的原图;

   (2)对原图进行文字位置的检测,检测结果可能是水平矩形框,也可能是倾斜矩形框;

   (3)从原图中把文字框对应的图片切下来,并旋转正,得到水平的文字块切片图;

   (4)对每个文字块切片图依次进行字符识别,每个切片图的识别结果汇总起来,就得到原图的文字识别结果。

   因此完整的端到端OCR流程是:输入原图 -> 文字检测 ->文字块切片 -> 字符识别 -> 识别结果汇总。


动手实践:

  本次案例地址:https://modelarts-labs-bj4.obs.cn-north-4.myhuaweicloud.com/notebook/DL_ctpn_crnn/DL_ocr.zip



点赞1 评论 引用 举报

大波

发帖: 2粉丝: 0

级别 : 新手上路

发消息 + 关注

发表于2020年11月09日 22:27:14
直达本楼层的链接
7#
显示全部楼层

华为云ID:double_db

AI全栈成长计划-AI应用篇 第一周 笔记

第一章   企业应用最广泛的AI案例开发:OCR文字识别

1.1  OCR介绍

1.1.1 OCRoptical character recognition)光学字符识别

1.1.2 OCR机器学习

图像预处理:去噪、灰度化、图像增强等

文本监测:滑动窗口算法遍历整张图片

字符分类:划分单个字符,识别单字

1.1.3 OCR深度学习

文字区域检测:将图片中出现的文本位置监测出来,可能存在不同语言,不同文字大小,不同角度倾斜,不同程度遮挡等情况

CPTNEASTPixelLink

字符识别算法:

CRNN+CTC

1.1.4 OCR相关的开源资源

TesseractMNISTCOCO-testCTW

1.1.5 OCR面临挑战(汉字字符识别、手写字符识别)


点赞 评论 引用 举报

HW-QGS

发帖: 44粉丝: 0

级别 : 实习版主

发消息 + 关注

发表于2020年11月09日 22:49:19
直达本楼层的链接
8#
显示全部楼层

华为云ID HW-QGS  第三章第一周OCR笔记

OCR 是光学字符识别,也可简单地称为文字识别,是文字自动输入的一种方法。它通过扫描 和摄像等光学输入方式获取纸张上的文字图像信息,利用各种模式识别算法分析文字形态特征 可以将票据、报刊、书籍、文稿及其它印刷品转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。

文字区域检测算法:CTPN、EAST、PixelLink

文字识别算法:CRNN+CTC

开源资源:Tesseract、MNIST、COCO-text、CTW




点赞 评论 引用 举报

外围的小尘埃

发帖: 30粉丝: 2

级别 : 中级会员

发消息 + 关注

更新于2020年11月17日 09:14:56
直达本楼层的链接
9#
显示全部楼层

华为云ID:hw90509325

AI全栈成长计划-AI应用篇 第一周 笔记

第一章   企业应用最广泛的AI案例开发:OCR文字识别

1.1  OCR介绍

1.1.1 OCRoptical character recognition)光学字符识别

1.1.2 OCR机器学习

图像预处理:去噪、灰度化、图像增强等

文本监测:滑动窗口算法遍历整张图片

字符分类:划分单个字符,识别单字

1.1.3 OCR深度学习

文字区域检测:将图片中出现的文本位置监测出来,可能存在不同语言,不同文字大小,不同角度倾斜,不同程度遮挡等情况

CPTNEASTPixelLink

字符识别算法:

CRNN+CTC

1.1.4 OCR相关的开源资源

TesseractMNISTCOCO-testCTW

1.1.5 OCR面临挑战(汉字字符识别、手写字符识别)

 

二、OCR服务调用指南

步骤:

1、下载pythonpycharm

2、申请OCR服务:进入OCR主页选择【立即使用】,选择开通【通用文字】服务,服务区域选择【华北-北京四】。

3、下载Python SDK

4、配置SDK:仅需对OCRDemo.py文件进行修改,将AK/SK值换成自己的,使用aksk_request方法,并将通用文字识别的api填充到req_url中。

5、img_path填写本地需要识别的图片地址。

6、运行代码,查看结果。

三、CTPN+CRNN算法端到端实现文字识别

3.1 网络结构

·CNN-VGG16

·RNN

·FC

 

3.2 卷积循环神经网络

·卷积层提取特征

·循环层深度双向LSTM

·转录层将RNN输出做softmax

 

3.3 完整的端到端OCR流程

1      准备一张含有文字的原图;

2     对原图进行文字位置检测,检测结果可能是水平矩形框,也可能是倾斜矩形框;

3     从原图中把文字框对应的图片切下来,并旋转正,得到水平的文字块切片图;

4     对每个文字块切片图依次进行字符识别,每个切片图的识别结果汇总起来,得到原图的文字识别结果。

 

因此,完整的端到端OCR流程:输入原图 >>> 文字检测 >>> 文字块切片 >>> 字符识别 >>> 识别结果汇总。


点赞 评论 引用 举报

wenwenzi

发帖: 0粉丝: 0

级别 : 新手上路

发消息 + 关注

发表于2020年11月10日 14:00:28
直达本楼层的链接
10#
显示全部楼层

华为云ID:hw76867186

第一周笔记

第1章 企业应用最广泛的AI案例开发:OCR文字识别

一、文字区域检测:将图片中出现的文本位置检测出来,可能存在不同语言,不同文字大小,不同角度倾斜,不同程度遮挡等情况。

  • CTPN

CTPN网络结合了CNN与LSTM深度网络,通过固定宽度 的anchor提取proposal,能有效的检测出复杂场景的横向 分布的文字区域,不定长度文本识别效果较好,是目前 使用广泛的文字检测算法。

  • EAST

EAST网络分为三部分:特征提取,特征融合和输出层, 实现了端到端的文本区域检测,通过FCN网络生成图片 文本参数,然后通过NMS筛选,得出检测结果。

  • PixelLink

PixelLink算法采用了实例分割的方法完成文本区域检测, 通过将统一实例中的像素链接,通过链接区域分割出文 本实例,然后从分割结果中提取文本边界框,进行回归 计算。

二、字符识别算法:将文本区域的字符识别出来。通过深度神经网络对目标区域进行特征提取,然后对固定特征进行提取和比对,得出识别结果。

  • CRNN+CTC 

CRNN卷积循环神经网络,将特征提取,序列建模以及 转录整合到统一的模型框架中。CRNN网络分为:卷积 层、循环层和转录层三部分,CTC为无词典的转录方式, 不会被局限在预定义词汇范围中




点赞 评论 引用 举报

初学者7000

发帖: 40粉丝: 0

级别 : 实习版主

发消息 + 关注

发表于2020年11月10日 14:32:51
直达本楼层的链接
11#
显示全部楼层

华为云ID:hw04429198

第一周笔记

OCR介绍


OCR 是英文Optical Character Recognition的缩写,意思是光学字符识别,也可简单地称为文字识别,是文字自动输入的一种方法。它通过 扫描 和摄像等光学输入方式获取纸张上的文字图像信息,利用各种 模式 识别算法分析文字形态特征 可以将票据、报刊、书籍、文稿及其它印刷品转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。可应用于银行票据、大量文字资料、档案卷宗、文案的录入和处理领域。适合于银行、税务等行业大量票据表格的自动扫描识别及长期存储。


OCR流程


图像预处理:识别文字前,我们要对原始图片进行预处理,以便后续的特征提取和学习。这个过程通常包含:灰度化、二值化、降噪、倾斜矫正、文字切分等子步骤。


灰度化(gray processing):在RGB模型中,如果R=G=B时,则彩色表示一种灰度颜色,其中R=G=B的值叫灰度值,因此,灰度图像每个像素只需一个字节存放灰度值(又称强度值、亮度值),灰度范围为0-255。说通俗一点,就是将一张彩**片变为黑白图片。灰度化一般有分量法、最大值法、平均值法、加权平均法四种方法对彩**像进行灰度化

字符切分和字符识别。

 深度学习方法

   文本区域检测:将图片中出现的文本位置检测处理,可能存在不同语言,不同文字大小,不同角度倾斜,不同程度遮挡等情况

     CTPN:CTPN网络结合了CNN与LSTM深度网络,通过固定宽带的anchor提前proposal,能有效的检测出复杂场景的横向分布的文字区域,不定长度文本识别效果较好,是目前使用广泛的文字检测算法。

     EAST:网络分为三部分,特征提取,特征融合和输出层

     PixelLink: 采用了实例分割的方法完成文本区域检测,通过将统一实例中的像素链接,通过链接区域分割出文本实例,然后从分割结果中提取文本边界框,进行回归计算。


   字符识别算法:将文本区域的字符识别出来。通过深度神经网络对目标区域进行特征提取,然后对固定特征进行提取和比对,得出识别结果。

     CRNN+CTC: CRNN卷积循环神经网络,将特征提取,序列建模以及转录整合到统一的模型框架中。CRNN网络分为:卷积层、循环层和转录层三部分,CTC为无词典的转录方式,不会被局限在预定义词汇范围中。

完整的端到端OCR流程

  了解了文本区域以及字符识别后,下面详细讲解完整的端到端OCR流程:

   (1)准备一张含有文字的原图;

   (2)对原图进行文字位置的检测,检测结果可能是水平矩形框,也可能是倾斜矩形框;

   (3)从原图中把文字框对应的图片切下来,并旋转正,得到水平的文字块切片图;

   (4)对每个文字块切片图依次进行字符识别,每个切片图的识别结果汇总起来,就得到原图的文字识别结果。

   因此完整的端到端OCR流程是:输入原图 -> 文字检测 ->文字块切片 -> 字符识别 -> 识别结果汇总。


点赞 评论 引用 举报