EKsumic's Blog

let today = new Beginning();

Click the left button to use the catalog.

OR

基于tesseract的二次训练 - jTessBoxEditorFX如何使用?

jTessBoxEditor下载地址:

https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/

直接打开里面的train.bat文件

选择TIFF/Box Generator,点击Input导入你需要识别的字符,这里只能导入txt文件,

这里我是新建了txt,里面打上了0 1 2 3 4 5 6 7 8 9 : ,并且按空格分开了,

我导入了该txt之后,然后我们选择output的位置,点击Generator,(注意这里我们还可以点击System Regular选择字体,选择字体是为了生成更好的识别)

好,生成完成之后,记住路径,

我们点击Box Editor,点击Open,导入刚才生成的tif文件

然后点击Trainer,浏览Tesseract Executables路径,选择jTessBoxEditorFX\tesseract-ocr\libbz2-1.dll

浏览Training Data路径,选择刚才生成的tif文件所在的文件夹

填写语言en或其他,选择Train with Existing Box,点击Run

Run完之后会生成一个tessdata文件夹,里面有en.traineddata是你训练好的文件,en.traineddata是你不重命名会显示的文件名


更详细的流程:

我的建议是,为了更加直观地看,

在jTessBoxEditorFX建立两个文件夹,一个叫my、一个叫output,

然后你或许还需要VietOCR这样的文件来检查效果,

 

参考来源:

https://www.youtube.com/watch?v=HgeksbqH0ng


另外一个文件是
https://digi.bib.uni-mannheim.de/tesseract/
不下载这个你没办法用指令
进入下载页面,可以看到有各种.exe文件的下载列表,这里可以选择下载3.0版本。

千万别下3.0的版本,有BUG,

pixReadMemTiff: tiff page 1 not found

建议直接最新版。

我是用的是5.0,注意环境变量

Path: C:\Program Files\Tesseract-OCR

TESSDATA_PREFIX: C:\Program Files\Tesseract-OCR\tessdata\


具体参考:

Tesseract-OCR-04-使用 jTessBoxEditor 进行训练

This article was last edited at 2020-07-26 21:58:28

* *