【Python】paddleocr快速使用及参数详解

news2025/1/11 7:50:11

文章目录

  • 1. paddleocr快速使用
    • 1.1 使用默认模型路径
    • 1.2 设定模型路径
  • 2. PaddleOCR其他参数介绍
  • PaddleOCR模型推理参数解释

在这里插入图片描述

其它相关推荐:
PaddleOCR模型训练及使用详细教程

在这里插入图片描述

官方网址:https://github.com/PaddlePaddle/PaddleOCR

  PaddleOCR是基于PaddlePaddle深度学习框架的开源OCR工具,但它提供了推理模型/训练模型/预训练模型,用户可以直接使用推理模型进行识别,也可以对训练模型或预训练模型进行再训练。支持约80种语言的文本识别,并具有较高的准确性和速度。

1. paddleocr快速使用

1.1 使用默认模型路径

import cv2

from paddleocr import PaddleOCR

# 使用默认模型路径
paddleocr = PaddleOCR(lang='ch', show_log=False)
img = cv2.imread('ch2.jpg')  # 打开需要识别的图片
result = paddleocr.ocr(img)
for i in range(len(result[0])):
    print(result[0][i][1][0])   # 输出识别结果

1.2 设定模型路径

import cv2

from paddleocr import PaddleOCR


# 设定模型路径
paddleocr = PaddleOCR(lang='ch', show_log=False, 
                      det_model_dir='.paddleocr\\whl\\det\\ch\\ch_PP-OCRv4_det_infer',
                      rec_model_dir='.paddleocr\\whl\\rec\\ch\\ch_PP-OCRv4_rec_infer') # 推理模型路径
img = cv2.imread('ch2.jpg')  # 打开需要识别的图片
result = paddleocr.ocr(img)
for i in range(len(result[0])):
    print(result[0][i][1][0])   # 输出识别结果


2. PaddleOCR其他参数介绍

PaddleOCR模型推理参数解释

在使用PaddleOCR进行模型推理时,可以自定义修改参数,来修改模型、数据、预处理、后处理等内容,详细的参数解释如下所示。

  • 全局信息
参数名称类型默认值含义
image_dirstr无,必须显式指定图像或者文件夹路径
page_numint0当输入类型为pdf文件时有效,指定预测前面page_num页,默认预测所有页
vis_font_pathstr“./doc/fonts/simfang.ttf”用于可视化的字体路径
drop_scorefloat0.5识别得分小于该值的结果会被丢弃,不会作为返回结果
use_pdservingboolFalse是否使用Paddle Serving进行预测
warmupboolFalse是否开启warmup,在统计预测耗时的时候,可以使用这种方法
draw_img_save_dirstr“./inference_results”系统串联预测OCR结果的保存文件夹
save_crop_resboolFalse是否保存OCR的识别文本图像
crop_res_save_dirstr“./output”保存OCR识别出来的文本图像路径
use_mpboolFalse是否开启多进程预测
total_process_numint6开启的进程数,use_mpTrue时生效
process_idint0当前进程的id号,无需自己修改
benchmarkboolFalse是否开启benchmark,对预测速度、显存占用等进行统计
save_log_pathstr“./log_output/”开启benchmark时,日志结果的保存文件夹
show_logboolTrue是否显示预测中的日志信息
use_onnxboolFalse是否开启onnx预测
  • 预测引擎相关
参数名称类型默认值含义
use_gpuboolTrue是否使用GPU进行预测
ir_optimboolTrue是否对计算图进行分析与优化,开启后可以加速预测过程
use_tensorrtboolFalse是否开启tensorrt
min_subgraph_sizeint15tensorrt中最小子图size,当子图的size大于该值时,才会尝试对该子图使用trt engine计算
precisionstrfp32预测的精度,支持fp32, fp16, int8 3种输入
enable_mkldnnboolTrue是否开启mkldnn
cpu_threadsint10开启mkldnn时,cpu预测的线程数
  • 文本检测模型相关
参数名称类型默认值含义
det_algorithmstr“DB”文本检测算法名称,目前支持DB, EAST, SAST, PSE, DB++, FCE
det_model_dirstrxx检测inference模型路径
det_limit_side_lenint960检测的图像边长限制
det_limit_typestr“max”检测的边长限制类型,目前支持minmaxmin表示保证图像最短边不小于det_limit_side_lenmax表示保证图像最长边不大于det_limit_side_len

其中,DB算法相关参数如下

参数名称类型默认值含义
det_db_threshfloat0.3DB输出的概率图中,得分大于该阈值的像素点才会被认为是文字像素点
det_db_box_threshfloat0.6检测结果边框内,所有像素点的平均得分大于该阈值时,该结果会被认为是文字区域
det_db_unclip_ratiofloat1.5Vatti clipping算法的扩张系数,使用该方法对文字区域进行扩张
max_batch_sizeint10预测的batch size
use_dilationboolFalse是否对分割结果进行膨胀以获取更优检测效果
det_db_score_modestr“fast”DB的检测结果得分计算方法,支持fastslowfast是根据polygon的外接矩形边框内的所有像素计算平均得分,slow是根据原始polygon内的所有像素计算平均得分,计算速度相对较慢一些,但是更加准确一些。

EAST算法相关参数如下

参数名称类型默认值含义
det_east_score_threshfloat0.8EAST后处理中score map的阈值
det_east_cover_threshfloat0.1EAST后处理中文本框的平均得分阈值
det_east_nms_threshfloat0.2EAST后处理中nms的阈值

SAST算法相关参数如下

参数名称类型默认值含义
det_sast_score_threshfloat0.5SAST后处理中的得分阈值
det_sast_nms_threshfloat0.5SAST后处理中nms的阈值
det_box_typestrquad是否多边形检测,弯曲文本场景(如Total-Text)设置为’poly’

PSE算法相关参数如下

参数名称类型默认值含义
det_pse_threshfloat0.0对输出图做二值化的阈值
det_pse_box_threshfloat0.85对box进行过滤的阈值,低于此阈值的丢弃
det_pse_min_areafloat16box的最小面积,低于此阈值的丢弃
det_box_typestr“quad”返回框的类型,quad:四点坐标,poly: 弯曲文本的所有点坐标
det_pse_scaleint1输入图像相对于进后处理的图的比例,如640*640的图像,网络输出为160*160,scale为2的情况下,进后处理的图片shape为320*320。这个值调大可以加快后处理速度,但是会带来精度的下降
  • 文本识别模型相关
参数名称类型默认值含义
rec_algorithmstr“CRNN”文本识别算法名称,目前支持CRNN, SRN, RARE, NETR, SAR, ViTSTR, ABINet, VisionLAN, SPIN, RobustScanner, SVTR, SVTR_LCNet
rec_model_dirstr无,如果使用识别模型,该项是必填项识别inference模型路径
rec_image_shapestr“3,48,320”识别时的图像尺寸
rec_batch_numint6识别的batch size
max_text_lengthint25识别结果最大长度,在SRN中有效
rec_char_dict_pathstr“./ppocr/utils/ppocr_keys_v1.txt”识别的字符字典文件
use_space_charboolTrue是否包含空格,如果为True,则会在最后字符字典中补充空格字符
  • 端到端文本检测与识别模型相关
参数名称类型默认值含义
e2e_algorithmstr“PGNet”端到端算法名称,目前支持PGNet
e2e_model_dirstr无,如果使用端到端模型,该项是必填项端到端模型inference模型路径
e2e_limit_side_lenint768端到端的输入图像边长限制
e2e_limit_typestr“max”端到端的边长限制类型,目前支持min, maxmin表示保证图像最短边不小于e2e_limit_side_lenmax表示保证图像最长边不大于e2e_limit_side_len
e2e_pgnet_score_threshfloat0.5端到端得分阈值,小于该阈值的结果会被丢弃
e2e_char_dict_pathstr“./ppocr/utils/ic15_dict.txt”识别的字典文件路径
e2e_pgnet_valid_setstr“totaltext”验证集名称,目前支持totaltext, partvgg,不同数据集对应的后处理方式不同,与训练过程保持一致即可
e2e_pgnet_modestr“fast”PGNet的检测结果得分计算方法,支持fastslowfast是根据polygon的外接矩形边框内的所有像素计算平均得分,slow是根据原始polygon内的所有像素计算平均得分,计算速度相对较慢一些,但是更加准确一些。
  • 方向分类器模型相关
参数名称类型默认值含义
use_angle_clsboolFalse是否使用方向分类器
cls_model_dirstr无,如果需要使用,则必须显式指定路径方向分类器inference模型路径
cls_image_shapestr“3,48,192”预测尺度
label_listlist[‘0’, ‘180’]class id对应的角度值
cls_batch_numint6方向分类器预测的batch size
cls_threshfloat0.9预测阈值,模型预测结果为180度,且得分大于该阈值时,认为最终预测结果为180度,需要翻转

在这里插入图片描述

其它相关推荐:
PaddleOCR模型训练及使用详细教程

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1412036.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【软考问题】-- 3 - 知识精讲 - 项目整合管理

一、基本问题 1:项目章程的内容包括什么?(助记:疯木鱼-要进庙里-发神经) 疯:项目整体风险木:项目目标鱼:整体预算要:概要设计进:总体里程碑进度庙&#xff1a…

深度学习(4)--Keras安装

目录 Keras安装: 1.1.安装CUDA/cuDDN工具包 1.1.1.安装前准备 1.1.2.安装CUDA 1.1.3.安装cuDDN 1.2.安装Anaconda 1.3.安装tensorflow框架 1.3.1.使用cmd安装 1.3.2.使用Anaconda Prompt安装 1.4.安装Keras框架 1.5.打开jupyter notebook,执行import调用…

Linux/Academy

Enumeration nmap 首先扫描目标端口对外开放情况 nmap -p- 10.10.10.215 -T4 发现对外开放了22,80,33060三个端口,端口详细信息如下 结果显示80端口运行着http,且给出了域名academy.htb,现将ip与域名写到/et/hosts中,然后从ht…

Redis数据结构与底层实现揭秘

在高并发的系统开发中,缓存和高效的数据存储机制对于提升应用性能至关重要。Redis,作为其中的佼佼者,以其卓越的性能和丰富的数据结构赢得了开发者的青睐。本文将深入探讨Redis的数据结构及其底层实现,带领读者走进这个高性能数据…

【云原生】Docker的镜像创建

目录 1.基于现有镜像创建 (1)首先启动一个镜像,在容器里做修改 ​编辑(2)然后将修改后的容器提交为新的镜像,需要使用该容器的 ID 号创建新镜像 实验 2.基于本地模板创建 3&am…

【网站项目】基于SSM的249作业提交与查收系统

🙊作者简介:拥有多年开发工作经验,分享技术代码帮助学生学习,独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。🌹赠送计算机毕业设计600个选题excel文件,帮助大学选题。赠送开题报告模板&#xff…

【Python爬虫入门到精通】小白也能看懂的知识要点与学习路线

文章目录 1. 写在前面2. 爬虫行业情况3. 学习路线 【作者主页】:吴秋霖 【作者介绍】:Python领域优质创作者、阿里云博客专家、华为云享专家。长期致力于Python与爬虫领域研究与开发工作! 【作者推荐】:对JS逆向感兴趣的朋友可以关…

计数指针:shared_ptr (共享指针)与函数 笔记

推荐B站视频: 4.shared_ptr计数指针_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV18B4y187uL?p4&vd_sourcea934d7fc6f47698a29dac90a922ba5a3 5.shared_ptr与函数_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV18B4y187uL?p5&vd_sourcea…

AI引爆算力需求,思腾推出支持大规模深度学习训练的高性能AI服务器

近日人工智能研究公司OpenAI公布了其大型语言模型的最新版本——GPT-4,可10秒钟做出一个网站,60秒做出一个游戏,参加了多种基准考试测试,它的得分高于88%的应试者;随后百度CEO李彦宏宣布正式推出大语言模型“文心一言”…

扫雷游戏——数组和函数实现

扫雷游戏的功能说明 使⽤控制台实现经典的扫雷游戏 游戏可以通过菜单实现继续玩或者退出游戏扫雷的棋盘是9*9的格⼦ 默认随机布置10个雷可以排查雷如果位置不是雷,就显⽰周围有⼏个雷如果位置是雷,就炸死游戏结束把除10个雷之外的所有⾮雷都找出来&…

域名缩短平台搭建

前言 当自己搭建的项目和网站相关文章的链接过长,可以参考一下本文搭建的平台 遵纪守法,不要乱缩网址。 代码: https://github.com/dyanst/shorturlhttps://github.com/dyanst/shorturl shorturl-main.zip官方版下载丨最新版下载丨绿色版…

Linux(linux版本 centos 7) 下安装 oracle 19c详细教程(新手小白易上手)

一、安装前准备 1、下载预安装包 wget http://yum.oracle.com/repo/OracleLinux/OL7/latest/x86_64/getPackage/oracle-database-preinstall-19c-1.0-1.el7.x86_64.rpm预安装包下载成功 2、下载oracle安装包 下载地址如下 https://www.oracle.com/cn/database/technologies…

Maven命令运行单元测试

使用idea开发多模块项目时,有时别的模块编译不通过会导致不能运行单元测试,这是我们可以使用maven命令来运行单元测试 格式 mvn -DtestDingTalkTest#getAllUsers 命令说明 mvn -Dtest 固定格式 DingTalkTest 单元测试类名 getAllUsers 单元测试方法 单元测试类和单元测试方法…

【LUA】mac状态栏添加天气

基于网络上的版本修改的,找不到出处了。第一个摸索的lua脚本,调了很久。 主要修改:如果风速不大,就默认不显示,以及调整为了一些格式 local urlApi http://.. --这个urlApi去申请个免费的就可以了 然后打开对应的json…

云轴科技ZStack成为交通运输业上云用云推进中心首批成员单位

近日,中国信息通信研究院、中国交通运输协会信息专业委员会联合发起成立“交通运输业上云用云推进中心”,上海云轴信息科技有限公司(简称云轴科技ZStack)凭借优秀的产品技术创新能力和在交通运输领域的实践经验成为首批成员单位并…

《安富莱嵌入式周报》第331期:单片机实现全功能软件无线电,开源电源EEZ升级主控,ARM 汇编用户指南,UDS统一诊断服务解析,半导体可靠性设计手册

周报汇总地址:嵌入式周报 - uCOS & uCGUI & emWin & embOS & TouchGFX & ThreadX - 硬汉嵌入式论坛 - Powered by Discuz! 目录: 1、单片机实现低配版全功能软件无线电,范围0.5-30 MHz,支持SSB、AM、FM和CW …

浅谈电气火灾监控系统应用在某地铁车站

安科瑞电气股份有限公司 上海嘉定201801 摘要:根据国家有关规范对建筑电气火灾监测系统设置的要求,结合当地城市地铁供配电方案的特点,介绍了地铁站电气火灾监测系统设置方案,从电气火灾探测器的选择和位置设置、电气火灾监测设备…

Java项目:SSM框架基于spring+springmvc+mybatis实现的心理预约咨询管理系统(ssm+B/S架构+源码+数据库+毕业论文)

一、项目简介 本项目是一套ssm823基于SSM框架的心理预约咨询管理系统,主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的Java学习者。 包含:项目源码、数据库脚本等,该项目附带全部源码可作为毕设使用。 项目都经过严格调试&am…

WWDG喂狗

3F 是0111111 40 是1000000 0X7F 127 0X5F 95 127-9532 注意:中断是在0x40,在0x40喂狗则程序不会复位 在0x5F之前喂狗会复位,减小到63以下也会复位 在0x5F与0x3F之间喂狗会继续执行,不会复位 WWDG_HandleTypeDef WWDG_Handler; //窗口看门狗句柄//初始化窗口看门狗…

Java接收curl发出的中文请求无法解析

最近做项目遇到了这种情况,Java接收curl发出的中文请求无法解析,英文请求一切正常,中文请求则对方服务器无法解析,可以猜测是中文导致的编码问题,但是奇怪的是,本地输出json也没有乱码,编解码正…