tess4j下载
下载地址: https://sourceforge.net/projects/tess4j/ 不要直接下载,点击files,然后下载最新版
下载解压后放到指定的目录即可,这里放到d:\jar目录下
tess4j根目录: d:\jar\tess4j
tess4j使用
把test4j项目目录中dist和lib目录下的所有jar包导入到需要的项目中
配置jna-4.1.0.jar Native library location 为项目lib目录下相应的平台
64位配置: D:/jar/Tess4J/lib/win32-x86-64
简单使用示例
import java.io.File;
import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
public class Tess4JTest {
/**
* @param args
*/
public static void main(String[] args) {
// TODO Auto-generated method stub
File imageFile=new File("d:\\code1.jpg");
ITesseract ins=new Tesseract();
try {
long stime=System.currentTimeMillis();
ins.setDatapath("D:\\jar\\Tess4J\\tessdata");
String result=ins.doOCR(imageFile);
System.out.println(result);
long time=System.currentTimeMillis()-stime;
System.out.println("用时(毫秒): "+time);
} catch (Exception e) {
// TODO: handle exception
e.printStackTrace();
}
}
}
下载中文识别库
下载地址: GitHub - tesseract-ocr/tessdata: Trained models with support for legacy and LSTM OCR engine
找到如图所示中文相关的库,下载即可
下载后放到项目目录下: D:\jar\Tess4J\tessdata
使用中文库识别时,代码需加上
ins.setDatapath("D:\\jar\\Tess4J\\tessdata");
ins.setLanguage("chi_sim");//设置使用中文库识别
训练
训练工具下载地址: https://sourceforge.net/projects/vietocr/files/jTessBoxEditor
下载解压后,双击jTessBoxEditor.jar或者train.bat即可运行.