【爬虫】8.1. 深度使用tesseract-OCR技术识别图形验证码

news2024/10/10 16:24:07

深度使用tesseract-OCR技术识别图形验证码

文章目录

  • 深度使用tesseract-OCR技术识别图形验证码
    • 1. OCR技术
    • 2. 准备工作
    • 3. 简单作用了解
      • 3.1. 验证码图片爬取-screenshot_as_png
      • 3.2. 识别测试-image_to_string
        • 3.2.1. 正确识别
        • 3.2.2. 错误识别
        • 3.2.3. 灰度调节
      • 3.3. 识别实战-使用image_to_string对象
    • 4. pytesseract库介绍
    • 5. image_to_string
    • 6. image_to_boxes
    • 7. image_to_data
    • 8. 参考博客

前言:本片文章是基于我之前发的一篇文章《【爬虫】8.1. 使用OCR技术识别图形验证码》而写的,链接为:
【爬虫】8.1. 使用OCR技术识别图形验证码,前面这篇文章比较基础。入门了tesseract-OCR技术之后对它比较感兴趣,故继续深度学习以下。为了衔接比较好,故本篇文章前面讲到的会和前面一篇文章有一些重复。

突然发现一个问题,csdn的图片有水印…不管了,凑合看吧,但是代码运行就要自己找图片了

1. OCR技术

OCR,即Optical Character Recognition,中文叫做光学字符识别,是指使用电子设备(例如扫描仪和数码相机)检查打印再纸上的字符,通过检查暗、亮的模式确定字符形状,然后使用字符识别方法将形状转化位计算机文字。现在OCR技术已经广泛应用于生产活动中,如文档识别,证件识别,字幕识别,文档搜索等。当然用来识别本节所述的图形验证码也没有问题。

2. 准备工作

我用的库是pytesseract,有的人用的是tesserocr,其实两者感觉差别不大:

  • 打开tesseract下载的网页 tesseract,下载最后一个(应该是)tesseract-ocr-w64-setup-v5.3.0.2.221214这个版本,接着就是安装,安装过程中自己记好自己安装在哪里!!!然后就是选择语言包,建议不要全选会下载很慢。
  • 将你记下来的安装路径的整个文件地址给添加到环境变量中去。
  • 接着python安装pytesseract,找到pytesseract.py文件,打开并找到tesseract_cmd这个变量(大约在30行左右)将里面的值修改为tesseract.exe文件的地址(这个文件在你一开始记下的文件地址里面,查找文件夹就找到了,不用进其他的文件夹,注意转义字符)。
  • 搞定上述之后在cmd窗口运行tesseract --list-langs可以看到你下载的语言包。
  • 重启,然后运行你的示例代码就行了,如果还不可以,那你去看其他下载教程。

以下是一篇在Ubuntu18.04安装Tesseract库的博客,需要的请跳转:
开源OCR识别库-tesseract介绍-平凡的编程者-博客园(cnblogs.com)

3. 简单作用了解

先简单了解下有啥用吧。

3.1. 验证码图片爬取-screenshot_as_png

这个网页使用JavaScript渲染出来的,我们进行爬取的时候使用selenium自动化测试工具。

from selenium import webdriver
from selenium.webdriver.common.by import By
from PIL import Image
from io import BytesIO
import time

def demo():
    browser = webdriver.Chrome()
    browser.get("https://captcha7.scrape.center")
    time.sleep(3)
    captcha = browser.find_element(By.CSS_SELECTOR,"#captcha")
    image = Image.open(BytesIO(captcha.screenshot_as_png))
    image.show()

if __name__ == "__main__":
    demo()

这里使用了我很少见的BytesIO,这是一个类,它的功能是读取二进制数据流,而图片就是二进制数据流;还有就是captcha.screenshot_as_png这部分的功能就是将当前页面的内容捕获为一张图像,以bytes二进制数据保存;最后调用image的show方法来显式验证码的图像。

3.2. 识别测试-image_to_string

本小节的验证码案例网站为https://captcha7.scrape.center,使用的是image_to_string,当然还有其他的,等会再说。

3.2.1. 正确识别

首先我们选用两张图片来进行测试,第一张是有换行和明显空格,第二张是一张验证码。

在这里插入图片描述

在这里插入图片描述

我们运行下面代码:

import pytesseract
from PIL import Image
image1 = Image.open("tesseract_tt1.png")
result1 = pytesseract.image_to_string(image1)
image2 = Image.open("tesseract_tt2.png")
result2 = pytesseract.image_to_string(image2)
print(result1, end= '')
print("=========")
print(result2, end= '')
Demons
Lin
Ss ZzTU
=========
2034

我们可以看到在输出SZTU这部分时候出现了SsZz这样大小写都输出的情况,这是因为pytesseract库在识别大小写字母时候很难准确识别出大小写,你可以采取其他办法来执行,这里就不列出来。

3.2.2. 错误识别

我选取到了一张图片,如下所示:
在这里插入图片描述

import pytesseract
from PIL import Image
image = Image.open("error.png")
result = pytesseract.image_to_string(image)
print(result, end= '')
04-8 d.

可以看到这个输出结果明显不是我们想要的,这是因为OCR识别技术是通过检查暗、亮的模式确定字符形状,不是我们想当然的用脑子来看。所以,我们需要做一些额外处理,把干扰信息去掉,我们观察发现,图片里哪些造成干扰的点,其颜色大多比文本的颜色更浅,因此可以通过颜色将干扰点去掉。首先将保存的图片转化为数组,看一下维度:

from PIL import Image
import numpy as np
image = Image.open("error.png")
print(np.array(image).shape)
print(image.mode)
(38, 112, 4)
RGBA

从结果上可以看出,这个图片其实是一个三维数组,38和112代表图片的高和宽,4则是每个像素点的表示向量,那为什么是4呢?因为最后一维是一个长度为4的数组分别表示R(红)G(绿)B(蓝)A(透明度),即一个像素点由4个数字表示。那为什么是RGBA而不是RGB或者其他的呢?因为image.mode是RGBA,即由透明通道的真彩色。

mode属性定义了图片的类型和像素的位宽,一共由9种类型:

  • 1:像素用1位表示,Python中表示为True或False,即二值化。
  • L:像素用8位表示,取值位0-255,表示灰度图像,数字越小,颜色越黑。
  • P:像素用8位表示,即调色板数据。
  • RGB:像素用3X8位表示,即真彩色。
  • RGBA:像素用4X8位标识,即有透明通道的真彩色。
  • CMYK:像素用4X8位表示,即印刷四色模式。
  • YCbCr:像素用3X8位表示,即彩色视频格式。
  • I:像素用32位整型表示。
  • F:像素用32位浮点型表示。

3.2.3. 灰度调节

让识别更加准确,可以把RGBA转化位更简单的L,即把图片转化位灰度图像。往图片对象的convert方法中传入L即可,代码如下表示:

image = image.convert('L')
image.show()

我们选择把图片转化位灰度图像,然后根据阈值删除图片上的干扰点,成功识别出验证码,也可以调用image的show方法来查看图像,代码如下:

from PIL import Image
import numpy as np

image = Image.open("error.png")
image = image.convert('L')
threshold = 90
array = np.array(image)
array = np.where(array> threshold, 255, 0)
image = Image.fromarray((array.astype('uint8')))
# image.show()
result = pytesseract.image_to_string(image)
print(result)

这里先将变量threshold赋值位50.它代表灰度的阈值。接着将图片转化位Numpy数组,利用Numpy的where方法对数组进行筛选和处理,其中将灰度大于阈值的图片的像素设置为255表示白色,否则为0,表示黑色。Image.fromarray((array.astype(‘uint8’))) 是使用PIL(Python Imaging Library)库将numpy数组转换为图像。

3.3. 识别实战-使用image_to_string对象

看懂就行了,识别可能不太准确。

import time
import re
import pytesseract
from selenium import webdriver
from io import BytesIO
from PIL import Image
from retrying import retry
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.by import By
import numpy as np


def preprocess(image):
    image = image.convert('L')
    array = np.array(image)
    array = np.where(array > 105, 255, 0)
    image = Image.fromarray(array.astype('uint8'))
    return image


@retry(stop_max_attempt_number=10, retry_on_result=lambda x: x is False)
def login():
    browser.get('https://captcha7.scrape.center/')
    browser.find_element(By.CSS_SELECTOR, '.username input[type="text"]').send_keys('admin')
    browser.find_element(By.CSS_SELECTOR, '.password input[type="password"]').send_keys('admin')
    captcha = browser.find_element(By.CSS_SELECTOR,'#captcha')
    image = Image.open(BytesIO(captcha.screenshot_as_png))
    image = preprocess(image)
    image.show()
    captcha = pytesseract.image_to_string(image)
    print(captcha)
    captcha = re.sub('[^A-Za-z0-9]', '', captcha)
    browser.find_element(By.CSS_SELECTOR, '.captcha input[type="text"]').send_keys(captcha)
    browser.find_element(By.CSS_SELECTOR, '.login').click()
    try:
        WebDriverWait(browser, 10).until(EC.presence_of_element_located((By.XPATH, '//h2[contains(., "登录成功")]')))
        time.sleep(5)
        browser.close()
        return True
    except TimeoutException:
        return False


if __name__ == '__main__':
    browser = webdriver.Chrome()
    login()

4. pytesseract库介绍

pytesseract提供了以下14个识别的api,可以满足大多数用户的需求,基本用到的有image_to_string,image_to_boxes,image_to_data,下面是它的14个api:

from pytesseract import ALTONotSupported  # 用于表示ALTO XML格式不受支持的错误
from pytesseract import get_languages  # 输出识别出文字的语言
from pytesseract import get_tesseract_version  # 获取安装的Tesseract OCR引擎的版本信息
from pytesseract import image_to_alto_xml  # 将图像识别结果输出为ALTO XML格式的文档,该格式通常用于文档数字化和文本识别
from pytesseract import image_to_boxes  # 将图像中的文字识别为边界框(box),并返回它们的坐标信息
from pytesseract import image_to_data  # 将图像中的文字识别并返回详细的数据,包括文本、坐标、置信度等信息
from pytesseract import image_to_osd  # 识别图像中的文字方向和脚本信息,以确定文本的定位和方向
from pytesseract import image_to_pdf_or_hocr  # 将图像中的文字识别并将结果输出为PDF或HOCR(HTML OCR)格式的文档
from pytesseract import image_to_string  # 将图像中的文字识别为字符串,并返回识别的文本内容
from pytesseract import Output  # 这是一个常量,用于指定返回识别结果的格式,例如文本、字典、数据等
from pytesseract import run_and_get_output  # 执行Tesseract OCR引擎并获取其输出,可以用于高级定制和控制
from pytesseract import TesseractError  # 用于表示Tesseract OCR引擎的错误
from pytesseract import TesseractNotFoundError  # 用于表示未找到Tesseract OCR引擎的错误
from pytesseract import TSVNotSupported  # 用于表示TSV(制表符分隔值)格式不受支持的错误

__version__ = '0.3.10'

以下内容使用的图片均为上面使用过的!!!!!!

5. image_to_string

从名字上来看是将图片转化为字符串格式,先来看看它的用法,再来说说它的其他参数:

import pytesseract
from PIL import Image
image1 = Image.open("tesseract_tt1.png")
result1 = pytesseract.image_to_string(image1)
print(result1, end= '')

以下是它的其他常见的可选参数:

  • lang:指定要用于识别的语言,默认为英语。
  • config:允许你传递tesseract配置参数,以微调识别过程,这可以包括有关字体、分辨率以及其他识别参数的设置,配置参数通常以键值对的形式传递。
    • –dpi:设置图像的分辨率(每英寸点数)。这可以用于提高对低分辨率图像的识别效果。
    • –c tessedit_char_whitelist:允许您指定要识别的字符白名单。例如,–c tessedit_char_whitelist=0123456789可以限制识别的字符集为数字。

以下是使用cv2和pytesseract

import cv2 
import pytesseract
img = cv2.imread('tesseract_tt1.png')
img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
string = pytesseract.image_to_string(img)
print(string)
print (type(string))

6. image_to_boxes

image_to_boxes 是 pytesseract 库中的一个函数,用于将图像中的文字识别为边界框(box),并返回它们的坐标信息。每个边界框包含了单个字符的位置和大小。这对于进行文本布局分析和文本识别后的后续处理非常有用。

函数签名

image_to_boxes(image, lang=None, config='', output_type=pytesseract.Output.STRING)

参数说明

  • image:要识别的图像,通常是一个 PIL 图像对象。
  • lang:可选参数,指定要用于识别的语言。
  • config:可选参数,用于配置 Tesseract 的识别参数。
  • output_type:可选参数,指定返回结果的格式,默认为字符串。

返回值

  • 如果 output_type 设置为 pytesseract.Output.STRING(默认值),则返回一个包含边界框信息的字符串,每行一个边界框,每行的格式为:<字符> <x坐标> <y坐标> <右边界x坐标> <下边界y坐标> <页>

模板代码

from pytesseract import image_to_boxes
from PIL import Image
image = Image.open('tesseract_tt2.png')

# 使用 image_to_boxes 函数进行文字识别并获取边界框信息
boxes = image_to_boxes(image)
# 打印边界框信息
for box in boxes.splitlines():
    b = box.split()
    char, x, y, x2, y2, page = b[0], int(b[1]), int(b[2]), int(b[3]), int(b[4]), int(b[5])
    print(f"字符: {char}, 位置: 左上({x},{y}), 右下({x2},{y2}), 页: {page}")

上述示例代码演示了如何使用 image_to_boxes 函数进行文字识别,并打印出识别的文本字符以及它们的位置信息。每个边界框包括字符、左上角坐标、右下角坐标和所在页。以下是输出结果:

字符: 2, 位置: 左上(13,4), 右下(34,27), 页: 0
字符: 0, 位置: 左上(45,12), 右下(55,27), 页: 0
字符: 3, 位置: 左上(64,10), 右下(78,38), 页: 0
字符: 4, 位置: 左上(90,16), 右下(102,34), 页: 0

知道这些信息我们可以做以下事情,对于这些我就没兴趣了:

  1. 文本高亮或标记:您可以使用字符的左上角和右下角坐标信息来在原始图像上绘制矩形框,从而高亮或标记文本字符。这对于可视化识别结果或提供反馈非常有用。

  2. 文本提取:通过比较字符的所在页信息,您可以将识别的文本分成不同的页面或段落。这对于处理多页文档或大型文本文件很有帮助。

  3. 文本布局分析:通过分析字符的相对位置和页码信息,您可以推断文本的布局结构,例如确定标题、段落、表格或列表的位置。这有助于自动化文档处理。

  4. 字符级别编辑:您可以根据字符的坐标信息,进行字符级别的编辑或纠正。例如,您可以检测到字符位置偏差较大的情况,并尝试进行自动校正。

  5. 文本重排:如果需要将文本重新排列成特定格式,可以使用字符的坐标信息将它们按照所在页和位置进行排序和排列。

  6. 自动分析文本流:通过字符的相对位置和页码信息,您可以自动分析文本流,例如确定文本的阅读顺序或制定自动化文档处理规则。

7. image_to_data

以下内容是参考这一篇博文:pytesseract image_to_data检测并定位图片中的文字 - LiveZingy

image_to_data 是 pytesseract 库中的一个函数,用于将图像中的文字识别并返回详细的数据,包括文本、坐标、置信度等信息。

函数签名

image_to_data(image, lang=None, config='', output_type=pytesseract.Output.DICT, nice=0)

参数说明

  • image:要识别的图像,通常是一个 PIL 图像对象。
  • lang:可选参数,指定要用于识别的语言。
  • config:可选参数,用于配置 Tesseract 的识别参数。
  • output_type:可选参数,指定返回结果的格式,默认为字典(pytesseract.Output.DICT)。
  • nice:可选参数,设置 Tesseract 进程的优先级,默认为 0。

返回值

  • 根据 output_type 参数的不同,image_to_data 函数返回不同的对象。常见的 output_type 包括字典、字符串、或数据对象。

如果 output_type 设置为 pytesseract.Output.DICT,则返回一个包含详细信息的字典,其中包括以下参数:

  • 'level':文本块的级别(例如,字、词、文本行等)。
  • 'page_num':文本块所在的页码。
  • 'block_num':文本块的编号。
  • 'par_num':段落编号。
  • 'line_num':文本行编号。
  • 'word_num':单词编号。
  • 'left''top''width''height':文本块的位置和尺寸信息。
  • 'conf':识别置信度。
  • 'text':识别的文本内容。

以下是一个示例代码,演示如何使用 image_to_data 函数并理解其返回的对象:

import pytesseract
from PIL import Image

# 打开图像文件
image = Image.open('tesseract_tt2.png')

# 使用 image_to_data 函数进行文字识别并获取详细信息
data = pytesseract.image_to_data(image, output_type=pytesseract.Output.DICT)

print(data)
# 打印详细信息
for i, (word, left, top, width, height, conf) in enumerate(zip(data['text'], data['left'], data['top'], data['width'], data['height'], data['conf'])):
    if i > 0:  # 第一行通常包含表头信息,可以跳过
        print(f"文本: {word}, 位置: 左上({left},{top}), 宽度: {width}, 高度: {height}, 置信度: {conf}")
{'level': [1, 2, 3, 4, 5], 'page_num': [1, 1, 1, 1, 1], 'block_num': [0, 1, 1, 1, 1], 'par_num': [0, 0, 1, 1, 1], 'line_num': [0, 0, 0, 1, 1], 'word_num': [0, 0, 0, 0, 1], 'left': [0, 13, 13, 13, 13], 'top': [0, 0, 0, 0, 0], 'width': [112, 89, 89, 89, 89], 'height': [38, 34, 34, 34, 34], 'conf': [-1, -1, -1, -1, 60], 'text': ['', '', '', '', '2034']}
文本: , 位置: 左上(13,0), 宽度: 89, 高度: 34, 置信度: -1
文本: , 位置: 左上(13,0), 宽度: 89, 高度: 34, 置信度: -1
文本: , 位置: 左上(13,0), 宽度: 89, 高度: 34, 置信度: -1
文本: 2034, 位置: 左上(13,0), 宽度: 89, 高度: 34, 置信度: 60

根据 image_to_data 的输出结果,以下是各个参数的知识点解释:

  1. 'level':文本块的级别。这表示文本的层次结构,例如,1 表示文本块级别,2 表示词级别,以此类推。

  2. 'page_num':文本块所在的页码。在单一图像中识别文本时,通常为 1。

  3. 'block_num':文本块的编号。文本块是文本的更大单元,通常表示一个文本块包含多个词或多个文本行。

  4. 'par_num':段落编号。这表示文本块所属的段落编号。

  5. 'line_num':文本行编号。表示文本块所在的文本行编号,通常在段落内。

  6. 'word_num':单词编号。表示文本块内的单词编号,通常在文本行内。

  7. 'left''top''width''height':文本块的位置和尺寸信息。'left''top' 表示文本块的左上角坐标,'width''height' 表示文本块的宽度和高度。

  8. 'conf':识别置信度。表示 Tesseract 对文本块的识别置信度,通常是一个分数,值越高表示置信度越高。

  9. 'text':识别的文本内容。这是文本块中识别出的具体文本,通常包含单词或字符的文本内容。

在这个示例中,有多个文本块级别的信息。最后一条记录中的 'text' 包含了识别的文本内容(‘2034’),而前面的记录中 'text' 为空字符串,这可能表示Tesseract对这些文本块没有成功识别。并且你也可以根据置信度选取最好的结果,当然这个结果不一定是正确的。

8. 参考博客

开源OCR识别库-tesseract介绍-平凡的编程者-博客园(cnblogs.com)

【爬虫】8.1. 使用OCR技术识别图形验证码

借助Tesseract-OCR进行文本检测(1)

借助Tesseract-OCR进行文本检测(2)

pytesseract image_to_data检测并定位图片中的文字 - LiveZingy

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/993642.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

qsort 函数的使用

一、qsort 函数的形式 1.1使用 qsort 函数包含的库 1.2qsort 函数的参数 qsort&#xff1a;对数组的元素进行排序 1.3参数中的 compar 函数 struct stu {char name[20];//姓名int age;//年龄double grade;//成绩 }; int cmp_name(void* p1, void* p2) {//如果按照姓名排序ret…

个人信息去标识化具体实施指南

声明 本文是学习个人信息去标识化指南. 而整理的学习笔记,分享出来希望更多人受益,如果存在侵权请及时联系我们 范围 本标准描述了个人信息去标识化的目标和原则&#xff0c;提出了去标识化过程和管理措施。 本标准针对微数据提供具体的个人信息去标识化指导&#xff0c;适…

windows 查询正在运行的系统

查询当前哪些服务在运行 net start 下图为查询到的正在运行的服务 查看某个服务是否正在运行 方式1 net start |find "MySQL" 出现下图说明mysql服务正在运行 方式2 sc query mysql 出现下图说明服务正在运行

打字侠:一款专业的中文打字网站

打字侠第一个正式版发布啦&#xff01;&#xff01;&#xff01; 虽然离期望的样子还有一段路要走&#xff0c;不过能看到它正式发布&#xff0c;我还是很激动哟&#xff01; 打字侠是一款面向中学生和大学生的在线打字软件&#xff0c;它通过合理的课程设计和精美的图形界面帮…

删除linux(centos7)系统自带的open jdk,安装配置jdk环境

查看jdk版本 安装的linux自带jdk8版本&#xff0c;我们不用自带的。 安装jdk步骤 1、下载 下载地址&#xff1a;https://www.oracle.com/java/technologies/downloads 2、创建目录 创建文件夹&#xff0c;用来部署JDK&#xff0c;将JDK安装部署到&#xff1a;/export/se…

【技术支持案例】S32K146的hard fault问题处理

文章目录 1. 案例背景2. 方案准备2.1 HardFault&#xff08;硬件错误异常&#xff09;2.2 UsageFault&#xff08;用法错误异常&#xff09;2.3 BusFault&#xff08;总线错误异常&#xff09;2.4 MemManage Fault&#xff08;存储器管理错误异常&#xff09; 3. 现场支持3.1 现…

OpenCV项目开发实战--实现面部情绪识别对情绪进行识别和分类及详细讲解及完整代码实现

文末提供免费的完整代码下载链接 面部情绪识别(FER)是指根据面部表情对人类情绪进行识别和分类的过程。通过分析面部特征和模式,机器可以对一个人的情绪状态做出有根据的猜测。面部识别的这个子领域是高度跨学科的,借鉴了计算机视觉、机器学习和心理学的见解。 在这篇研究…

C++数据结构 -- AVL树

目录 一、什么是AVL树&#xff1f;AVL树的概念 二、 AVL树的节点的定义三、 AVL树新结点的插入3.1 左单旋左单旋代码实现3.2 右单旋右单旋代码实现3.3 左单旋或者右单旋解决不了的问题3.4 左右双旋左右双旋代码实现3.5 右左双旋右左双旋代码实现 四、代码汇总 一、什么是AVL树&…

【Vue篇】Vue 项目下载、介绍(详细版)

如何创建一个vue项目&#xff1f;首先要有环境&#xff0c;如下&#xff1a; nodejs vue-cli如果有以上的工具就直接跳过安装教程 【Vue篇】mac上Vue 开发环境搭建、运行Vue项目&#xff08;保姆级&#xff09; 创建vue项目 选择一个位置&#xff0c;你要存放项目的路径&…

App线上网络问题优化策略

在我们App开发过程中&#xff0c;网络是必不可少的&#xff0c;几乎很难想到有哪些app是不需要网络传输的&#xff0c;所以网络问题一般都是线下难以复现&#xff0c;一旦到了用户手里就会碰到很多疑难杂症&#xff0c;所以对于网络的监控是必不可少的&#xff0c;针对用户常见…

golang flag 包的使用指北

说起 golang 的 flag 个包&#xff0c;我们第一反应的是什么呢&#xff1f;至少我曾经第一次看到 flag 包的时候&#xff0c;第一反应是想起写 C 语言的时候咱们用于定义一个表示的&#xff0c;我们一般会命名为 flag 变量 实际上 golang 的 flag 包是用于处理命令行参数的工具…

《深入浅出OCR》第六章:OCR数据集与评价指标

一、OCR技术流程 在介绍OCR数据集开始&#xff0c;我将带领大家和回顾下OCR技术流程&#xff0c;典型的OCR技术pipline如下图所示&#xff0c;其中&#xff0c;文本检测和识别是OCR技术的两个重要核心技术。 1.1 图像预处理&#xff1a; 图像预处理是OCR流程的第一步&#xf…

5147. 数量

题目&#xff1a; 样例1&#xff1a; 输入 4 输出 1 样例2&#xff1a; 输入 7 输出 2 样例3&#xff1a; 输入 77 输出 6 思路&#xff1a; 根据题意&#xff0c;如果直接 for 循环暴力&#xff0c;肯定会超时&#xff0c;但是我们换个思路想&#xff0c;只要包含 4 和 7的…

【2023年数学建模国赛】C题代码与技术文档分享

2023年数学建模国赛C题 第一问代码code1_Q1_1.mCode1_Q1_2.mCode1_Q1_3.m实验结果 技术文档问题分析假设符号说明1 第一问1.1分布检验模型的建立1.2 相关性模型的建立1.3各种类蔬菜的销量分布及相关关系 写在最后 第一问代码 code1_Q1_1.m clc clear Dxlsread(合成表1,合成表…

通过实例学习:使用Spring Cache实现实际场景的缓存策略

文章目录 前言一、Spring Cache 常用注解1.Cacheable&#xff1a;2.CachePut&#xff1a;3.CacheEvict&#xff1a;4.CacheConfig&#xff1a;5.EnableCathing: 二、使用步骤1.引入依赖2.配置3.EnableCaching的使用&#xff1a;4.Cacheable的使用&#xff1a;5.CachePut的使用&…

c语言练习46:模拟实现strncpy

模拟实现strncpy 模拟实现&#xff1a; #include<stdio.h> char* my_strncpy(char*dest,char*src,size_t num) {char* ret dest;size_t i 0;for (i 0; i < num; i) {*dest *src;dest;src;}*dest \0;return ret; } int main() {char aim[50] { 0 };char src[] …

03_kafka-eagle 监控

文章目录 安装修改 kafka-server-start.sh修改 kafka-run-class.sh问题eagle 日志报错mysql 报错 时区问题 kafka-eagle 监控 安装 download.kafka-eagle.org &#xff1a; https://github.com/smartloli/kafka-eagle-bin/archive/v3.0.1.tar.gzhttps://docs.kafka-eagle.org/…

C语言“牵手”lazada商品详情数据方法,lazada商品详情API接口,lazadaAPI申请指南

lazada是东南亚最大的自营式电商企业&#xff0c;在线销售计算机、手机及其它数码产品、家电、汽车配件、服装与鞋类、奢侈品、家居与家庭用品、化妆品与其它个人护理用品、食品与营养品、书籍与其它媒体产品、母婴用品与玩具、体育与健身器材以及虚拟商品等。 lazada平台的商…

C基础-数组

1.一维数组的创建和初始化 int main() {// int arr1[10];int n 0;scanf("%d",&n);//int count 10;int arr2[n]; //局部的变量&#xff0c;这些局部的变量或者数组是存放在栈区的&#xff0c;存放在栈区上的数组&#xff0c;如果不初始化的话&#xff0c;默认…

heap堆结构以及堆排序

堆的定义 堆&#xff08;heap&#xff09;是计算机科学中一类特殊的数据结构的统称。堆通常是一个可以被看做一棵树的数组对象。堆总是满足下列性质&#xff1a; 堆中某个结点的值总是不大于或不小于其父结点的值&#xff1b; 堆总是一棵完全二叉树。 将根结点最大的堆叫做…