tesseract、jTessBoxEditorFX训练数据实践

举报
彭世瑜 发表于 2021/08/14 01:22:14 2021/08/14
【摘要】 网上很多文章都总结的很好,这里就不做重复,只是简单的将步骤梳理 文章后面会有一个实例,来说明数据训练步骤 字库训练 下载jTessBoxEditorFX https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/ 文件名必须是如下格式: [lang].[fontname].exp[num] 1 ...

网上很多文章都总结的很好,这里就不做重复,只是简单的将步骤梳理
文章后面会有一个实例,来说明数据训练步骤

字库训练

下载jTessBoxEditorFX
https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/

文件名必须是如下格式:

[lang].[fontname].exp[num]

  
 
  • 1

lang:语言名(训练生成的示为语言)
fontname:字体名
num:序号(无所谓)
于是可以得到一个命名为 num.peng.exp1.tif 的文件

1、准备样本图片,合并为.tif文件
jTessBoxEditorFX -> tools->merge tiff

2、生成.bok文件

tesseract num.peng.exp1.tif num.peng.exp1 batch.nochop makebox

  
 
  • 1

3、字符矫正
jTessBoxEditorFX -> Box Editor->Open,num.peng.exp1.tif,调整校正

生成训练数据

示例假设有3个文件,tif文件

1、创建font_properties文件
文件内容为 :

<fontname> <italic> <bold> <fixed> <serif> <fraktur>

# eg:
echo peng
  
 
  • 1
  • 2
  • 3

文章来源: pengshiyu.blog.csdn.net,作者:彭世瑜,版权归原作者所有,如需转载,请联系作者。

原文链接:pengshiyu.blog.csdn.net/article/details/104398527

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。