tesseract 识别中文字符

举报
风吹稻花香 发表于 2021/06/04 23:21:58 2021/06/04
【摘要】 tesseract是谷歌的一个对图片进行识别的开源框架,免费使用,现在已经支持中文,而且识别率非常高,这里简要来个helloworld级别的认识 下载地址:http://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-setup-3.01-1.exe&can...

tesseract是谷歌的一个对图片进行识别的开源框架,免费使用,现在已经支持中文,而且识别率非常高,这里简要来个helloworld级别的认识

下载地址:http://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-setup-3.01-1.exe&can=2&q=

下载之后进行安装,不再演示。

在tesseract目录下,有个tesseract.exe文件,主要调用这个执行文件,用cmd运行到这个目录下,在这个目录下同时放置一张需要识别的图片,这里是123.jpg

然后运行:tesseract 123.jpg result

会把123.jpg自动识别并转换为txt文件到result.txt

但是此时中文识别不好,要下载一个中文包:http://code.google.com/p/tesseract-ocr/downloads/detail?name=chi_sim.traineddata.gz&can=2&q=

然后找到tessdata目录,把eng.traineddata替换为chi_sim.traineddata,并且把chi_sim.traineddata重命名为eng.traineddata

ok,现在中文识别基本达到90%以上了

测试下:

源文件(图片):此开卷第一回也。作者自云曾历过一番梦幻之后,故将真事隐去,

而借“通灵”说此《石头记》一书也,故曰“甄士隐”云云。但书中所记何事何人?

Tesseract release notes August 27 2007 - V2.01

Fixed UTF8 input problems with box file reader.

4-834578457384578-871238917238912739823749834789

 

输入:tesseract 123.jpg result

 

测试结果为:

 

此开卷第一回也. 作者酝曾历过一番梦幻之后, 故将真事隐去, 

而借 “通灵" 说此 «石头记» 一书也, 故日 “甄士隐" 云云,但书中所记何事何人7

Tesseract re1ease notes August Z7 Z007 7 \「Z.O1

Fixed [二TFS input prob1ems \vit11 box fi1e reader.

4783457845738457S7871Z38917Z38912739S23749834789

 

识别率还是蛮高的,,,更详细的需要自己去钻研了。

文章来源: blog.csdn.net,作者:网奇,版权归原作者所有,如需转载,请联系作者。

原文链接:blog.csdn.net/jacke121/article/details/76038663

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。