用pytesseract 来批量把图片转成文字
1、安装好 pytesseract 包
2、下载安装OCR
https://download.csdn.net/download/m0_37622302/88348824https://download.csdn.net/download/m0_37622302/88348824
Index of /tesseracthttps://digi.bib.uni-mannheim.de/tesseract/
我是win10 64位,所以下载了 tesseract-ocr-w64-setup-v5.3.0.20221214.exe
安装软件目录在D:\Program Files\ocr\
下载 chi_sim.traineddata
放在 D:\Program Files\ocr\tessdata
3、编辑环境变量
TESSDATA_PREFIX
D:\Program Files\ocr\tessdata
4、测试环境一切就绪
tesseract -v 测 试一下,成功
5、pytesseract 编码
import os
import pytesseract
from PIL import Image
def jpg_to_text(input_folder, output_folder):
# 遍历输入文件夹中的所有JPG图片
for filename in os.listdir(input_folder):
if filename.endswith(".png"):
# 构造输入和输出文件的路径
input_path = os.path.join(input_folder, filename)
output_path = os.path.join(output_folder, f"{filename}.txt")
# 打开图片文件并进行文字识别
image = Image.open(input_path)
text = pytesseract.image_to_string(image, 'chi_sim')
# 将识别结果写入输出文件
with open(output_path, "w") as file:
file.write(text)
if __name__ == '__main__':
jpg_to_text("F:/table/cc", "F:/table/aa")
识别中文一定需要这个参数,不然会出现乱码
最后就可以见证奇迹了