基于tesseract的二次训练 - jTessBoxEditorFX如何使用？

2020-07-26 12:55:06 | Unclassified | 3k+ Reads

Copyright Notice: This article is an original work licensed under the CC 4.0 BY-NC-ND license. If you wish to repost this article, please include the original source link and this copyright notice.
Source link: https://v2know.com/article/383

jTessBoxEditor下载地址：

https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/

直接打开里面的train.bat文件

选择TIFF/Box Generator，点击Input导入你需要识别的字符，这里只能导入txt文件，

这里我是新建了txt，里面打上了0 1 2 3 4 5 6 7 8 9 : ，并且按空格分开了，

我导入了该txt之后，然后我们选择output的位置，点击Generator，（注意这里我们还可以点击System Regular选择字体，选择字体是为了生成更好的识别）

好，生成完成之后，记住路径，

我们点击Box Editor，点击Open，导入刚才生成的tif文件

然后点击Trainer，浏览Tesseract Executables路径，选择jTessBoxEditorFX\tesseract-ocr\libbz2-1.dll

浏览Training Data路径，选择刚才生成的tif文件所在的文件夹

填写语言en或其他，选择Train with Existing Box，点击Run

Run完之后会生成一个tessdata文件夹，里面有en.traineddata是你训练好的文件，en.traineddata是你不重命名会显示的文件名

更详细的流程：

我的建议是，为了更加直观地看，

在jTessBoxEditorFX建立两个文件夹，一个叫my、一个叫output,

然后你或许还需要VietOCR这样的文件来检查效果，

参考来源：

https://www.youtube.com/watch?v=HgeksbqH0ng

另外一个文件是
https://digi.bib.uni-mannheim.de/tesseract/
不下载这个你没办法用指令
~~进入下载页面，可以看到有各种.exe文件的下载列表，这里可以选择下载3.0版本。~~

千万别下3.0的版本，有BUG，

pixReadMemTiff: tiff page 1 not found

建议直接最新版。

我是用的是5.0，注意环境变量：

Path: C:\Program Files\Tesseract-OCR

TESSDATA_PREFIX: C:\Program Files\Tesseract-OCR\tessdata\

具体参考：

Tesseract-OCR-04-使用 jTessBoxEditor 进行训练

This article was last edited at 2020-07-26 12:58:28

v2know

Global Access

About

Site Stats

Categories

Archives

Links

基于tesseract的二次训练 - jTessBoxEditorFX如何使用？