- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

tesseract、jTessBoxEditorFX训练数据实践

彭世瑜发表于 2021/08/14 01:22:14 2021/08/14

【摘要】网上很多文章都总结的很好，这里就不做重复，只是简单的将步骤梳理文章后面会有一个实例，来说明数据训练步骤字库训练下载jTessBoxEditorFX https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/ 文件名必须是如下格式： [lang].[fontname].exp[num] 1 ...

网上很多文章都总结的很好，这里就不做重复，只是简单的将步骤梳理
文章后面会有一个实例，来说明数据训练步骤

字库训练

下载jTessBoxEditorFX
https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/

文件名必须是如下格式：

[lang].[fontname].exp[num]

  
 
  1

lang:语言名(训练生成的示为语言)
fontname:字体名
num:序号(无所谓)
于是可以得到一个命名为 num.peng.exp1.tif 的文件

1、准备样本图片，合并为.tif文件
jTessBoxEditorFX -> tools->merge tiff

2、生成.bok文件

tesseract num.peng.exp1.tif num.peng.exp1 batch.nochop makebox

  
 
  1

3、字符矫正
jTessBoxEditorFX -> Box Editor->Open，num.peng.exp1.tif，调整校正

生成训练数据

示例假设有3个文件，tif文件

1、创建font_properties文件
文件内容为：

<fontname> <italic> <bold> <fixed> <serif> <fraktur>

# eg:
echo peng
  
 
  1
  2
  3

文章来源: pengshiyu.blog.csdn.net，作者：彭世瑜，版权归原作者所有，如需转载，请联系作者。

原文链接：pengshiyu.blog.csdn.net/article/details/104398527

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

tesseract、jTessBoxEditorFX训练数据实践

字库训练

生成训练数据

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

tesseract、jTessBoxEditorFX训练数据实践

字库训练

生成训练数据

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品