tesseract、jTessBoxEditorFX训练数据实践
【摘要】 网上很多文章都总结的很好,这里就不做重复,只是简单的将步骤梳理 文章后面会有一个实例,来说明数据训练步骤
字库训练
下载jTessBoxEditorFX https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/
文件名必须是如下格式:
[lang].[fontname].exp[num]
1
...
网上很多文章都总结的很好,这里就不做重复,只是简单的将步骤梳理
文章后面会有一个实例,来说明数据训练步骤
字库训练
下载jTessBoxEditorFX
https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/
文件名必须是如下格式:
[lang].[fontname].exp[num]
- 1
lang:语言名(训练生成的示为语言)
fontname:字体名
num:序号(无所谓)
于是可以得到一个命名为 num.peng.exp1.tif 的文件
1、准备样本图片,合并为.tif文件
jTessBoxEditorFX -> tools->merge tiff
2、生成.bok文件
tesseract num.peng.exp1.tif num.peng.exp1 batch.nochop makebox
- 1
3、字符矫正
jTessBoxEditorFX -> Box Editor->Open,num.peng.exp1.tif,调整校正
生成训练数据
示例假设有3个文件,tif文件
1、创建font_properties文件
文件内容为 :
<fontname> <italic> <bold> <fixed> <serif> <fraktur>
# eg:
echo peng
- 1
- 2
- 3
文章来源: pengshiyu.blog.csdn.net,作者:彭世瑜,版权归原作者所有,如需转载,请联系作者。
原文链接:pengshiyu.blog.csdn.net/article/details/104398527
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)