OCR简介:
OCR(Optical Character Recognition),即光学字符识别,是一种利用计算机自动识别和解析图像中的文字信息的技术。它能够将纸质文档、图片、照片等载体上的文字信息转化为计算机可编辑和处理的文本数据。
一,准备工作
1,java环境
2,springboot项目
3,python环境
二,安装easyocr
1,windows环境:pip install easyocr
2,linux环境:pip3 install easyocr
三,编写python脚本
引入easyocr进行图片文字识别
import easyocr
import sys
def extract_text_from_image(image_path):
reader = easyocr.Reader(
['ch_sim', 'en'],
# gpu=False,
model_storage_directory='model/.',
user_network_directory='model/.',
)
# 读取图片
with open(image_path, 'rb') as image_file:
image = image_file.read()
# 执行文字识别
result = reader.readtext(image)
data_array = []
for res in result:
json = {'location': res[0], 'text': str(res[1]), 'confidence': res[