jTessBoxEditor下载地址:
https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/
直接打开里面的train.bat文件
选择TIFF/Box Generator,点击Input导入你需要识别的字符,这里只能导入txt文件,
这里我是新建了txt,里面打上了0 1 2 3 4 5 6 7 8 9 : ,并且按空格分开了,
我导入了该txt之后,然后我们选择output的位置,点击Generator,(注意这里我们还可以点击System Regular选择字体,选择字体是为了生成更好的识别)
好,生成完成之后,记住路径,
我们点击Box Editor,点击Open,导入刚才生成的tif文件
然后点击Trainer,浏览Tesseract Executables路径,选择jTessBoxEditorFX\tesseract-ocr\libbz2-1.dll
浏览Training Data路径,选择刚才生成的tif文件所在的文件夹
填写语言en或其他,选择Train with Existing Box,点击Run
Run完之后会生成一个tessdata文件夹,里面有en.traineddata是你训练好的文件,en.traineddata是你不重命名会显示的文件名
更详细的流程:
我的建议是,为了更加直观地看,
在jTessBoxEditorFX建立两个文件夹,一个叫my、一个叫output,
然后你或许还需要VietOCR这样的文件来检查效果,
参考来源:
https://www.youtube.com/watch?v=HgeksbqH0ng
另外一个文件是
https://digi.bib.uni-mannheim.de/tesseract/
不下载这个你没办法用指令
进入下载页面,可以看到有各种.exe文件的下载列表,这里可以选择下载3.0版本。
千万别下3.0的版本,有BUG,
pixReadMemTiff: tiff page 1 not found
建议直接最新版。
我是用的是5.0,注意环境变量:
Path: C:\Program Files\Tesseract-OCR
TESSDATA_PREFIX: C:\Program Files\Tesseract-OCR\tessdata\
具体参考:
Today's comments have reached the limit. If you want to comment, please wait until tomorrow (UTC-Time).
There is 18h48m03s left until you can comment.