整合Tess4J图文识别技术

news2026/1/9 5:34:45

仓库地址：https://gitee.com/z3inc/tess4j-demo.git

1. OCR图文识别介绍

OCR（全称 Optical Character Recognition，直译为光学字符识别）用于图片文字识别，例如提取图片中车牌号等等。

Java中实现OCR的技术方案有：

百度OCR，花米
Tesseract-OCR，Google维护的开源OCR引擎，支持Java，Python等语言调用
Tess4J，封装了Tesseract-OCR ，支持Java调用。（使用Tess4J需要不同的词库文件进行支撑（如汉语词库）
…

2. Tess4J示例代码

Tess4J是一个Java库，它对谷歌的Tesseract-OCR进行了再封装，使用程度上更简单。

Tesseract OCR是一个开源的光学字符识别（OCR）引擎，它能够识别图像中的文本，并将其转换为可编辑的格式。Tess4J使得开发者可以在Java应用程序中轻松集成OCR功能。

Tess4J官网：https://tess4j.sourceforge.net/usage.html

1、添加依赖坐标

<dependencies>
    <!--单元测试-->
    <dependency>
        <groupId>junit</groupId>
        <artifactId>junit</artifactId>
        <version>4.13</version>
    </dependency>
    <!--tess4j-->
    <dependency>
        <groupId>net.sourceforge.tess4j</groupId>
        <artifactId>tess4j</artifactId>
        <version>4.1.1</version>
    </dependency>
</dependencies>

2、导入中文字体库，将tessdata放到一个没有中文、特殊字符、空格的目录下

下载地址：https://download.csdn.net/download/qq_46921028/89307556

3、准备一张带文字的图片

4、编写测试

package cn.aopmin.tess4j;

import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import org.junit.Test;

import java.io.File;

/**
 * 测试ORC图片文字识别:
 * 我们这里使用的是Tess4j类库（它封装了谷歌的Tesseract-OCR，也是支持Java调用的）
 *
 * @author 白豆五
 * @since 2024/5/14
 */
public class Tess4jTest {

    /**
     * 测试图片文字提取
     */
    @Test
    public void testScanText() {
        try {
            // 获取本地图片
            File file = new File("D:/1111/pic1.png");
            // 创建Tesseract对象
            ITesseract tesseract = new Tesseract();
            // 设置字体库路径
            tesseract.setDatapath("D:/1111/tessdata");
            // 中文识别
            tesseract.setLanguage("chi_sim");
            // 执行ocr识别
            String result = tesseract.doOCR(file);
            // 替换回车和tal键 ,让结果在一行显示
            result = result.replaceAll("\\r|\\n", "").replaceAll(" ", "");
            System.out.println("识别的结果为：" + result);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}