建议使用以下浏览器,以获得最佳体验。 IE 9.0+以上版本 Chrome 31+ 谷歌浏览器 Firefox 30+ 火狐浏览器
设置昵称

在此一键设置昵称,即可参与社区互动!

确定
我再想想
选择版块
鲲鹏论坛 主题:8003帖子:270353

【技术干货】

Tesseract4.0.0环境搭建指导书 - 银河麒麟Kylin V10 B06

银河护卫队... 2020/10/9 1052

1 软件介绍

Tesseract是一个光学字符识别引擎,支持多种操作系统。Tesseract是基于Apache许可证的自由软件,自2006年起由Google赞助开发。2006年,Tesseract被认为是最精准的开源光学字符识别引擎之一

本文所有操作基于Tesseract 4.0.0版本。

 

 

 

2 环境配置

本文档基于TaiShan 200服务器硬件环境展开。

服务器

TaiShan 200 2280

处理器

2*KunPeng 920 4826

内存

4*32G 2666MHz

硬盘

1 * 960G SSD

网络

1 * GE(板载)  1 * 10GE(1822)

 

 

软件平台

软件名称

版本号

备注

银河麒麟

V10B06


kernel

4.19.90-11.ky10


 

 

3 系统配置

3.1 关闭防火墙(可选)

                     步骤 1    停止防火墙。

# systemctl stop firewalld.service

                     步骤 2    关闭防火墙。

# systemctl disable firewalld.service

----结束

3.2 修改SELINUXdisabled(可选)

                     步骤 1    关闭防火墙。

# sed -i 's/SELINUX=enforcing/SELINUX=disabled/g' /etc/sysconfig/selinux

----结束

3.3 配置本地yum

步骤 1    配置源文件

#mv /etc/yum.repos.d/ /etc/yum.repos.d-bak
#mkdir /etc/yum.repos.d
#echo -e "[local]\nname=local\nbaseurl=file:///mnt\ngpgcheck=0\nenabled=1" > /etc/yum.repos.d/local.repo

 步骤 2    执行cat确认上一步操作写入成功,显示如下图

#cat /etc/yum.repos.d/local.repo

image.png

步骤 3    挂载源镜像,将系统镜像通过KVM挂载

#mount /dev/cdrom /mnt

----结束


 

4 软件编译

4.1  安装Tesseract依赖的软件

4.1.1 yum源可以安装的软件

# yum install automake libtool gcc-c++ libjpeg-devel libpng-devel libtiff-devel –y

安装过程中会遇到如下错误

image.png

 可以添加 –skip-broken解决

image.png

----结束

4.1.2 安装tesseract依赖的图像处理库leptonica源码包

步骤 1    下载源码包,并上传到/home目录

源码地址: http://www.leptonica.org/source/leptonica-1.78.0.tar.gz

# cd /home


步骤 2    解压软件包。

# tar -zxvf leptonica-1.78.0.tar.gz

# cd leptonica-1.78.0/


步骤 3    编译和安装

# ./configure --prefix=/usr/   &&  make -j24 && make install


步骤 4    配置leptonica环境变量

# vi /etc/profile

在最后一个export $PATH语句之前添加如下内容

# export PKG_CONFIG_PATH=/usr/lib/pkgconfig

# ESC,:wq保存退出

生效配置文件

# source /etc/profile

# ldconfig

----结束

4.2 Tesseract下载和部署

  步骤 1    下载源码包。

# mkdir -p /home/Tesseract

# cd /home/Tesseract

# wget https://github.com/tesseract-ocr/tesseract/archive/4.0.0.tar.gz


步骤 2    解压软件包。

# tar -zxvf 4.0.0.tar.gz

# cd tesseract-4.0.0/


步骤 3    生成配置文件

# sh autogen.sh

# ./configure –prefix=/usr/local/ tesseract


步骤 4    编译。

# make -j 96

# make install

----结束


5 软件运行

5.1 Tesseract运行和验证

测试Tesseract功能可用。

 1) 执行如下命令,创建目录。

cd /root

mkdir lang

cd lang

2) 执行如下命令,获取Tesseract语言包。

wget https://github.com/tesseract-ocr/tessdata/archive/4.0.0.tar.gz

3) 执行如下命令,解压语言包。

tar -zxvf tessdata-4.0.0.tar.gz

4) 进入Tessdata目录。

cd tessdata-4.0.0

5) 执行以下命令,将Tesseract安装目录放入复制到/usr/local/share/tessdata目录。

cp * /usr/local/share/tessdata -r

6) 执行以下命令,将缓存数据刷新到硬盘。

sync

7) 执行如下命令,获取kunpeng.png图片。

wget https://portal-www-software.obs.cn-north-1.myhuaweicloud.com:443/kunpeng.bmp

8) 执行如下命令,运行Tesseract识别图片文字。

tesseract kunpeng.bmp result

9) 执行如下命令,查看文字识别结果。

cat result.txt

当系统回显显示如下图片文字时,表示使用Tesseract识别文字成功。

Hello Kunpeng

image.png



6 软件卸载

                     步骤 1    删除Tesseract文件夹和文件。

                     步骤 2    删除leptonica 文件和文件夹。


回复1

火灵
0 0
2020/10/18 20:06

谢谢分享!

上划加载中
直达楼层
标签
您还可以添加5个标签
  • 没有搜索到和“关键字”相关的标签
  • 云产品
  • 解决方案
  • 技术领域
  • 通用技术
  • 平台功能
取消

采纳成功

您已采纳当前回复为最佳回复
发表于2020年10月09日 16:31:12 1052 1
直达本楼层的链接
楼主
显示全部楼层
[技术干货] Tesseract4.0.0环境搭建指导书 - 银河麒麟Kylin V10 B06

1 软件介绍

Tesseract是一个光学字符识别引擎,支持多种操作系统。Tesseract是基于Apache许可证的自由软件,自2006年起由Google赞助开发。2006年,Tesseract被认为是最精准的开源光学字符识别引擎之一

本文所有操作基于Tesseract 4.0.0版本。

 

 

 

2 环境配置

本文档基于TaiShan 200服务器硬件环境展开。

服务器

TaiShan 200 2280

处理器

2*KunPeng 920 4826

内存

4*32G 2666MHz

硬盘

1 * 960G SSD

网络

1 * GE(板载)  1 * 10GE(1822)

 

 

软件平台

软件名称

版本号

备注

银河麒麟

V10B06


kernel

4.19.90-11.ky10


 

 

3 系统配置

3.1 关闭防火墙(可选)

                     步骤 1    停止防火墙。

# systemctl stop firewalld.service

                     步骤 2    关闭防火墙。

# systemctl disable firewalld.service

----结束

3.2 修改SELINUXdisabled(可选)

                     步骤 1    关闭防火墙。

# sed -i 's/SELINUX=enforcing/SELINUX=disabled/g' /etc/sysconfig/selinux

----结束

3.3 配置本地yum

步骤 1    配置源文件

#mv /etc/yum.repos.d/ /etc/yum.repos.d-bak
#mkdir /etc/yum.repos.d
#echo -e "[local]\nname=local\nbaseurl=file:///mnt\ngpgcheck=0\nenabled=1" > /etc/yum.repos.d/local.repo

 步骤 2    执行cat确认上一步操作写入成功,显示如下图

#cat /etc/yum.repos.d/local.repo

image.png

步骤 3    挂载源镜像,将系统镜像通过KVM挂载

#mount /dev/cdrom /mnt

----结束


 

4 软件编译

4.1  安装Tesseract依赖的软件

4.1.1 yum源可以安装的软件

# yum install automake libtool gcc-c++ libjpeg-devel libpng-devel libtiff-devel –y

安装过程中会遇到如下错误

image.png

 可以添加 –skip-broken解决

image.png

----结束

4.1.2 安装tesseract依赖的图像处理库leptonica源码包

步骤 1    下载源码包,并上传到/home目录

源码地址: http://www.leptonica.org/source/leptonica-1.78.0.tar.gz

# cd /home


步骤 2    解压软件包。

# tar -zxvf leptonica-1.78.0.tar.gz

# cd leptonica-1.78.0/


步骤 3    编译和安装

# ./configure --prefix=/usr/   &&  make -j24 && make install


步骤 4    配置leptonica环境变量

# vi /etc/profile

在最后一个export $PATH语句之前添加如下内容

# export PKG_CONFIG_PATH=/usr/lib/pkgconfig

# ESC,:wq保存退出

生效配置文件

# source /etc/profile

# ldconfig

----结束

4.2 Tesseract下载和部署

  步骤 1    下载源码包。

# mkdir -p /home/Tesseract

# cd /home/Tesseract

# wget https://github.com/tesseract-ocr/tesseract/archive/4.0.0.tar.gz


步骤 2    解压软件包。

# tar -zxvf 4.0.0.tar.gz

# cd tesseract-4.0.0/


步骤 3    生成配置文件

# sh autogen.sh

# ./configure –prefix=/usr/local/ tesseract


步骤 4    编译。

# make -j 96

# make install

----结束


5 软件运行

5.1 Tesseract运行和验证

测试Tesseract功能可用。

 1) 执行如下命令,创建目录。

cd /root

mkdir lang

cd lang

2) 执行如下命令,获取Tesseract语言包。

wget https://github.com/tesseract-ocr/tessdata/archive/4.0.0.tar.gz

3) 执行如下命令,解压语言包。

tar -zxvf tessdata-4.0.0.tar.gz

4) 进入Tessdata目录。

cd tessdata-4.0.0

5) 执行以下命令,将Tesseract安装目录放入复制到/usr/local/share/tessdata目录。

cp * /usr/local/share/tessdata -r

6) 执行以下命令,将缓存数据刷新到硬盘。

sync

7) 执行如下命令,获取kunpeng.png图片。

wget https://portal-www-software.obs.cn-north-1.myhuaweicloud.com:443/kunpeng.bmp

8) 执行如下命令,运行Tesseract识别图片文字。

tesseract kunpeng.bmp result

9) 执行如下命令,查看文字识别结果。

cat result.txt

当系统回显显示如下图片文字时,表示使用Tesseract识别文字成功。

Hello Kunpeng

image.png



6 软件卸载

                     步骤 1    删除Tesseract文件夹和文件。

                     步骤 2    删除leptonica 文件和文件夹。


举报
分享

分享文章到朋友圈

分享文章到微博

采纳成功

您已采纳当前回复为最佳回复

火灵

发帖: 172粉丝: 11

发消息 + 关注

发表于2020年10月18日 20:06:38
直达本楼层的链接
沙发
显示全部楼层

谢谢分享!

点赞 评论 引用 举报

游客

富文本
Markdown
您需要登录后才可以回帖 登录 | 立即注册

结贴

您对问题的回复是否满意?
满意度
非常满意 满意 一般 不满意
我要反馈
0/200