【新知测评实验室】解谜扫描全能王——“智能高清滤镜”黑科技

news2025/1/21 13:05:39

目录

  • 一、“智能高清滤镜” 原理分析
    • 1.1、智能扫描引擎AI-Scan功能拆解
      • 1.1.1、**图像感知**
      • 1.1.2、场景化决策
    • 1.2、版面还原与识别技术分析
      • 1.2.1、元素检测和识别
      • 1.2.2、元素聚合
      • 1.2.3、版面识别
  • 二、深度测评——“智能高清滤镜”功能
    • 2.1、图像处理方面
    • 2.2、摩尔纹去除方面
    • 2.3、功能拓展方面
  • 三、 智能高清滤镜体验感受——“所拍即所得”

扫描技术已经被广泛应用于如办公(文件、名片、发票)、学习(笔记、试卷)、个人生活(证件、照片)、商务(收据、发票)、法律(合同、证据)等等各个领域。然而,现实图像中常常会出现一系列模糊、阴暗、褶皱、污渍、光线、透字等问题,如下面是一张很常见的笔记照片,照片中的褶皱和版面弯曲严重影响了图像质量和可读性,经过传统扫描工具如打印机、扫描仪扫描后仍然难以到达实用性和可用性。

近期,合合信息旗下扫描全能王全新上线了一款“智能高清滤镜”黑科技,使用“智能高清滤镜”时无需思考拍摄角度、光源、背景、褶皱,自动判定图像优化方式,实现模糊、阴暗、手指等干扰因素全处理。本篇文章将对此一探究竟,从深层原理和测试对比来揭开其神秘面纱。

一、“智能高清滤镜” 原理分析

1.1、智能扫描引擎AI-Scan功能拆解

“智能高清滤镜”的实现是基于智能扫描引擎AI-Scan的支持。该引擎从“图像处理、文字识别、版面还原”三个维度,从感知、认知到决策,用AI为图像质量自动“体检”,锁定问题并匹配对应优化方案,让图像处理更智能、文字识别更精准、版面还原“所拍即所得”。

智能扫描引擎AI-Scan主要包括两个部分:图像感知和场景化决策

1.1.1、图像感知

图像感知主要包括通识性的图像处理——在这个阶段,应用程序使用深度学习模型来识别和理解图像的内容。通过深度学习模型,应用可以感知到图像中的光照、阴影、颜色和倾斜角度等特。例如,对于手指的遮挡,它可以进行去手指处理;对于过暗或过亮的图像,它可以调整图像的亮度和对比度;对于倾斜的文档,它可以自动进行倾斜矫正等。这一步经常会用到直方图均衡化和透视变换。

直方图均衡化(Histogram Equalization)是一种增强图像对比度的方法,其主要思想是将一副图像的直方图分布变成近似均匀分布,通过重新分布图像的灰度级来增强图像的视觉效果从而增强图像的对比度。具体来说,直方图均衡化的步骤如下:

  1. 统计图像的灰度直方图:对图像中每个像素的灰度值进行统计,得到灰度级别与出现频次的关系。
  2. 计算灰度级别的累积分布函数(CDF:Cumulative Distribution Function):累积分布函数是指在图像中灰度值小于或等于某个灰度级别的像素点所占比例的累计分布函数,用于表示该灰度级别下像素点出现的累积概率。其数学公式表示为: C D F ( k ) = ∑ i = 0 k p ( i ) CDF(k) = ∑_{i=0}^{k}p(i) CDF(k)=i=0kp(i),其中k代表灰度级别,p(i)代表图像中灰度值为i的像素点占总像素点数的比例。
  3. 计算灰度级别的映射函数:将CDF线性映射到0-255的灰度级别范围内,得到一个灰度级别的映射表。
  4. 将映射表应用到原始图像:对图像中的每个像素,根据灰度级别映射表,将原始灰度值替换为映射后的灰度值。

以下是一段使用OpenCV进行直方图均衡化的代码。

import cv2
from matplotlib import pyplot as plt

img = cv2.imread("test.jpg", 0)
plt.hist(img.ravel(), 256, [0, 256])
plt.savefig("result.jpg", dpi = 300, bbox_inches = "tight", pad_inches = 0)

# dpi : dot per inch
# bbox_inches: if 'tight', try to figure out the tight bbox of the figure.
# pad_inches: amount of padding[填充] around the figure when bbox_inches is 'tight'.

plt.show()

直方图均衡化可以使图像的像素分布尽可能广泛,改善图像的对比度,而图像的透视变换则可以将图像从一个视角投影到另一个视角,从而改变图像的几何形状和视角,通常可以用于图像矫正、摄像头校正等领域。下图是透视变换的实验示例,可以看到透视变换不仅矫正了图像的视角,而且将弯曲的页面透射成了平面文档。

透视变换的步骤如下:

  1. 确定原图像和目标图像中至少四个对应点的坐标。其中三个点在原图像中确定了一个平面,对应的三个点在目标图像中也确定了一个平面。
  2. 使用这些对应点来计算透视变换矩阵。透视变换矩阵是一个3x3的矩阵,可以通过求解一个线性方程组来获得。常见的方法是使用OpenCV提供的函数cv2.getPerspectiveTransform()来计算透视变换矩阵。
  3. 使用透视变换矩阵对原图像进行变换。可以使用cv2.warpPerspective()函数来实现变换。这个函数会根据透视变换矩阵将原图像中的每个像素映射到目标图像中的对应位置,同时进行线性插值以获得更平滑的结果。

1.1.2、场景化决策

场景化决策根据图像感知的结果,进行通识性、场景化的判断。基于AI-Scan引擎,扫描全能王能够智能地决策如何优化文档的图像,进行场景化的图像处理。

比如:识别到办公文档的场景,便通过版面还原和机器学习技术,进行元素检测和识别,将文档图片区分为正文、标题、表格等不同的元素,并进一步将文字内容提取出来,提取之后通过元素聚合和版面还原,将文档内容的自动识别和分类,提高文档管理的效率;识别到PPT拍摄场景时,扫描全能王可以调整屏幕图像的角度和对比度、自动去除反光点、自动去除屏幕摩尔纹(如上图所示),并自动识别屏幕文字;识别到试卷拍照扫描场景时,能够一键清除手写痕迹(如下图)、自动计算并减弱试卷上背景纹理和反射干扰,提高图像质量和可读性。

1.2、版面还原与识别技术分析

在测评中,我详细关注了扫描全能王对文档版面的处理。版面还原与识别是图像处理和计算机视觉领域的重要分支,可以说是一个复杂且高度专业的任务,其不仅需要对各种元素进行精准定位,还要准确解析这些元素的内容及它们之间的关系。扫描全能王融合自研技术和前沿理论,创建了一套完整的版面处理流程,成功实现了精准的版面还原。

1.2.1、元素检测和识别

扫描全能王利用Layout-engine这样的版面分析框架,进行文档的初步元素检测和识别。在对文档图像进行版面分析时,同时进行实例级别的目标分割,将文档图像中不同语义类别的物体进行精确、有效地分割,将文本、图片、表格等不同类型的内容从背景中区分出来,以便更好地理解和处理这些信息。

它利用类似卷积神经网络(CNN)和Faster R-CNN(如下图)的深度学习模型,定位并识别文档中的元素,如文本、图表、图片等,处理的范围包括段落检测、表格检测、页眉页脚识别等。

上图展示了Mask R-CNN的框架结构,模型首先输入预处理后的原始图片,并将其送入特征提取网络中,以获得特征图。然后,在每个像素位置设定固定数量的ROIAnchor,并将这些ROI区域送入RPN网络进行二分类(前景和背景)以及坐标回归,从而获取经过精炼处理的ROI区域。

接下来,需要对这些ROI区域执行论文提出的ROIAlign操作。该操作包括两个主要部分:首先是对应匹配原图和feature map各自在相同位置上的像素点;接着是将feature map与固定的feature进行对应。

最终,在完成前面所有步骤之后,多个经过筛选、匹配和调整过程形成的ROI区域需进行多类别分类、候选框回归并引入FCN生成Mask等措施来完成实际分割任务。

1.2.2、元素聚合

在准确检测到元素后,我们需要对这些元素进行合理的聚合。元素聚合是指将识别到的文本、图片、表格等元素按照其在版面中的位置进行组合,以还原原始版面的结构和排列。如将相同段落的文字聚合在一起,形成完整的段落;将表格的行列单元聚合,生成完整的表格。在这个过程中,扫描全能王运用了类似图神经网络(GNN)的方法,构建一个图形模型来描述元素之间的关系,从而实现对元素的有效聚合。

图神经网络(Graph Neural Network,GNN 可以有效地处理具有复杂连接关系的非欧几里得数据,其核心思想是在图结构上进行信息传播和聚合,通过对每个节点和其邻居节点的信息进行计算和更新,逐步传播和聚合整个图的信息。学习过程可以分为两个关键步骤:消息传递和节点更新。

  1. 消息传递阶段:每个节点会从其邻居节点接收信息,并对接收到的信息进行聚合和转换。这一过程可以通过图卷积层(Graph Convolutional Layer)来实现,其中每个节点的特征信息会与其邻居节点的特征信息进行聚合和转换。具体的聚合方式可以是加权平均、最大池化等
  2. 节点更新阶段:将聚合好的信息和节点自身的特征进行融合,生成新的节点表示。这一过程可以通过激活函数、全连接层等操作实现。通过多层的节点更新,GNN 可以逐步融合和传播整个图的信息。

1.2.3、版面识别

在元素聚合完成后,需要识别这些元素的内容。识别文本、识别表格中的信息、解析条形码和二维码的数据等。这一步,扫描全能王使用了一种类似Transformer网络模型的结构。

Transformer网络是一种基于自注意力机制的神经网络模型,最初由Google Brain团队在2017年提出,被广泛应用于自然语言处理、计算机视觉等领域。它能够有效处理长距离的依赖关系,并且具有并行计算的优势,对大规模文档处理任务有着显著的效益,这使得扫描全能王能够高效地处理大规模文档处理任务,并且具有较好的准确性和效益。

如上图所示,Transformer的整体主要分为Encoder和Decoder两大部分。Encoder接收输入序列并将其转换为一系列向量表示,Decoder则基于这些向量表示生成目标序列。每个EncoderDecoder都由多层自注意力层和前馈神经网络层组成。输入的序列首先变成计算机便于处理的Embedding,然后Embedding传入Encoder进行编码,映射成隐藏层特征,经过Encoder后再结合上一次的output输入到Decoder中,最后用softmax计算序列后续的概率。

二、深度测评——“智能高清滤镜”功能

在深入剖析其原理后,我们下面开始测评扫描全能王的这款“智能高清滤镜”功能,为了有比较直观的结果,我们选取了市面上其他两款产品:A产品和B产品,进行横向对比。

2.1、图像处理方面

首先我们选取生活中常见的扫描书籍文档方面进行了测评,我们在拍摄角度较为倾斜和书籍页面弯曲的情况下拍摄了一张图片,并在同样的设备环境、同样的框选范围下进行了三次扫描,结果如下:

可以看到,虽然三者均能矫正倾斜的拍照角度,但只有扫描全能王能够自动矫正页面的弯曲情况,得益于其融入的透视变换原理,其能够将视觉上弯曲的文本重新投影,映射到平面方便阅读和归档管理。但A产品和B产品明显无法矫正页面弯曲的情形,且B产品出现了严重的文字模糊、失真等错误。

AI-Scan加持下的图像视觉矫正技术使得扫描全能王在处理复杂的扫描任务上具有独特的优势。它不仅可以处理平面文档的扫描,还可以处理各种曲面文档的扫描,甚至能够处理在极端角度下拍摄的文档。

2.2、摩尔纹去除方面

其次我们对扫描屏幕时摩尔纹去除方面进行了测评,我们同样拍摄了一张PPT的屏幕,并保存为图片,然后将该图片传入了所测评的扫描全能王和其他两款产品。

可以看到,扫描全能王基本完全消除屏幕摩尔纹,且文字和版面并未受到消除步骤带来的影响,而A产品在扫描后出现了剧烈的条纹、光点等摩尔纹现象,这些摩尔纹影响了图像的清晰度和阅读体验。B产品虽然在摩尔纹消除方面做了一定的优化,但字体被同时虚化模糊,且仍有轻微的摩尔纹现象。

扫描全能王“智能高清滤镜”的摩尔纹去除技术,可以帮助消除屏幕纹对画质的干扰,提高图像、文字清晰度,从而提升图像质量和用户体验。

2.3、功能拓展方面

而在测评中,我们发现除了“智能高清滤镜”功能之外,扫描全能王在其他拓展方面还提供了一系列实用功能。

其中的拍试卷功能通过自动识别和校正图像的方式,快速而准确地拍摄试卷,且可以一键去除手写痕迹,方便用户重新存档复习。而书籍一键扫描功能提供了一键拍摄双页功能,并可以实现去除背面字印、手指遮盖等,保证扫描准确率和清晰度的同时提升效率。而拍手写板和拍白板功能引入人工智能技术对反光区域进行处理,以消除或减弱反光现象。扫描全能王可在去除画面上反光、指印痕迹的同时,根据手写板笔迹的风格进行特征提取,并对手写文字进行特征编码,助力文档图像中反光区域文字的提取,尽可能还原笔锋、笔触等贴近真实的书写细节。

三、 智能高清滤镜体验感受——“所拍即所得”

体验完扫描全能王的“智能高清滤镜”的第一感受就是“所拍即所得”,“智能高清滤镜”能够一键满足用户办公、学习、个人生活、政务、商务等90%场景下的高清无损扫描需求。

智能高清滤镜视频演示

其内核采用智能扫描引擎AI-Scan,可以智能感知文档图像类型,自动检测问题并进行优化,自动识别多语言并进行精准处理,内置的场景化决策能够一键清除手指、摩尔纹、阴影等常见图像干扰因素,还原图像高清质感。

在办公场景中,智能高清滤镜可以用于快速的文档数字化。用户只需运用智能手机拍照扫描,智能高清滤镜将自动识别文档内容、优化图像质量,生成高质量的文档电子版,助力无纸化办公,以提高文档传输、存储和管理的效率和质量。

在教育领域,智能高清滤镜可以用于学生笔记的扫描和整理。无需考虑拍照的混乱背景和反光问题,智能高清滤镜将一键优化图像质量,识别文本信息,生成高清数码版笔记,以提高学生的学习效率和便利性。

在法律和会计领域,智能高清滤镜可以对法律文件和财务报表进行扫描,高清还原证件和证据材料,优化图像质量和识别文本信息,以提高法律和会计工作的效率和准确性。

总的来讲,扫描全能王刚上线的“智能高清滤镜”具有更为智能的图像处理能力、更为智慧的场景决策功能,更为强大的版面清晰度和还原度,给用户带来准确、高清、便捷的使用体验,提升生活与生产效率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/895419.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

五分钟搭建生鲜蔬果小程序

如今,随着移动互联网的快速发展,小程序已经成为众多企业和商家推广产品和服务的重要工具。而生鲜蔬果行业作为一个常见的消费领域,也开始逐渐转向小程序商城来进行销售和服务。那么,如何从零开始搭建一个生鲜蔬果小程序商城呢&…

电力应用 | Intewell操作系统新疆特变项目应用案例

近日,科东软件Intewell操作系统在新疆特变项目成功应用,该方案保障了变电站的电力设备在高电压下稳定运行,实现变电站的智能化控制,极大程度上节省了人力、物力和财力资源;可实时监控电力设备的异常情况,及…

【MT32F006】MT32F006之PWM控制RGB背光灯

本文最后修改时间:2023年06月07日 一、本节简介 本文介绍如何使用MT32F006使用PWM控制RGB灯显示白光,再加上扩散膜、导光板、反光纸、遮光纸,即可作为LCD的背光。 二、实验平台 库版本:V1.0.0 编译软件:MDK5.37 硬…

【24择校指南】齐鲁工业大学计算机考研考情分析

齐鲁工业大学 考研难度(☆) 内容:23考情概况(拟录取和复试分析)、院校概况、23专业目录、23复试详情、各专业考情分析、各科目考情分析。 正文1140字,预计阅读:3分钟。 2023考情概况 齐鲁工…

将eNSP Pro部署在华为云是什么体验

eNSP Pro简介 eNSP Pro 是华为公司数据通信产品线新推出的数通设备模拟器,主要应用在数据通信技能培训,为使用者提供华为数据通信产品设备命令行学习环境。 具备的能力 多产品模拟能力:支持数据通信产品线NE路由器、CE交换机、S交换机、AR…

Streamlit 讲解专栏(十):数据可视化-图表绘制详解(上)

文章目录 1 前言2 st.line_chart:绘制线状图3 st.area_chart:绘制面积图4 st.bar_chart:绘制柱状图5 st.pyplot:绘制自定义图表6 结语 1 前言 在数据可视化的世界中,绘制清晰、易于理解的图表是非常关键的。Streamlit…

算法笔记:A*算法

A*算法是一种很常用的路径查找和图形遍历算法。它有较好的性能和准确度 1 中心思路 A*算法通过下面这个函数来计算每个节点n的优先级 f(n)g(n)h(n) f(n)是节点n的综合优先级。当选择下一个要遍历的节点时,总会选取综合优先级最高(f(n)值最小&#xff0…

算法通关村第三关【黄金】| 数组元素出现次数问题

1.数字出现的次数超过数组长度的一半 方法一、使用Map键值对来记录每个元素出现的次数&#xff0c;返回次数大于一半的 class Solution {public int majorityElement(int[] nums) {Map<Integer,Integer> map new HashMap<>();for(int i 0;i<nums.length;i){m…

解决跨时区跨语言的国外大文件传输问题

随着信息技术的飞速发展和全球化的深入推进&#xff0c;跨国团队、跨国公司之间的合作变得越来越普遍。在这种背景下&#xff0c;大文件的传输成为了一个经常遇到的挑战。跨语言、跨时区的国外大文件传输&#xff0c;由于涉及到复杂的网络环境、不同国家法律法规等多方面的问题…

苹果iOS16曝出新漏洞:飞行模式下依旧可连接网络

近日&#xff0c;网络安全研究人员发现iOS 16存在一种新的漏洞利用后持久化技术&#xff0c;即使受害者的苹果设备处于离线状态&#xff0c;也可以利用该技术悄无声息地访问该设备。 Jamf Threat Labs 的研究人员 Hu Ke 和 Nir Avraham 在与 The Hacker News 分享的一份报告中…

八、Linux下,grep/wc/管道符/echo/重定向符/tail如何使用?

1、grep命令 &#xff08;1&#xff09;主要用于文件 &#xff08;2&#xff09;主要作用是“通过关键字&#xff0c;过滤文件行” &#xff08;3&#xff09;示例&#xff1a; 2、wc命令 &#xff08;1&#xff09;统计文件的行数、单词数等 &#xff08;2&#xff09;示例…

开源数据库Mysql_DBA运维实战 (总结)

开源数据库Mysql_DBA运维实战 &#xff08;总结&#xff09; SQL语句都包含哪些类型 DDL DCL DML DQL Yum 安装MySQL的配置文件 配置文件&#xff1a;/etc/my.cnf日志目录&#xff1a;/var/log/mysqld.log错误日志&#xff1a;/var/log/mysql/error.log MySQL的主从切换 查看主…

Docker部署php运行环境(php-fpm+nginx)

前言 如果使用docker去部署一套php的运行环境&#xff0c;我们需要构建出nginx、php-fpm两个容器&#xff0c;nginx通过fast_cgi协议去转发php-fpm中的端口&#xff0c;从而实现web server的搭建&#xff0c;接下来以php的laravel框架为演示例子。 部署php-fpm 第一步 编写ph…

「UG/NX」Block UI 面收集器FaceCollector

✨博客主页何曾参静谧的博客📌文章专栏「UG/NX」BlockUI集合📚全部专栏「UG/NX」NX二次开发「UG/NX」BlockUI集合「VS」Visual Studio「QT」QT5程序设计「C/C+&#

Java虚拟机(JVM):引用计数算法

一、引言 我们学习了Java内存运行时区域的各个部分&#xff0c;其中程序计数器、虚拟机栈、本地方法栈3个区域随线程而生&#xff0c;随线程而灭。栈中的栈帧随着方法的进入和退出而有条不紊地执行着出栈和入栈操作。每一个栈帧中分配多少内存基本上是在类结构确定下来就已知的…

Eclipse使用插件时提示Plugin Error loading shared libraries

项目场景: 使用Eclipse的过程中,依赖openCONFIGURATOR插件进行新建项目时,弹出如下的错误: Plugin Error loading shared libraries 以及具体的信息为: Can’t find dependent libraries 这里我使用的插件为openCONFIGURATOR插件 问题描述 如上场景,提示缺少动态链接库…

Python - 协程基本使用详解【demo】

一. 前言 协程&#xff08;Coroutine&#xff09;是一种轻量级的线程&#xff0c;也被称为用户级线程或绿色线程。它是一种用户态的上下文切换方式&#xff0c;比内核态的线程切换更为轻量级&#xff0c;能够高效的支持大量并发操作。 2. 使用协程的好处 Python 中的协程是通…

外卖福利来了,以后都10元以下了,还有机会赚钱,你信吗

怎么实现的点外卖赚钱 在外卖返现平台抢单&#xff0c;用信用卡支付订单&#xff0c;上传好评返现 外卖返现平台是看订单金额&#xff0c;信用卡满减不计入其中&#xff0c;这样就有机会实现赚钱 外卖返现平台 用了半年多返现5000多了&#xff0c;也是一笔开支了 扫最后面的…

快递打单系统使用教程

旅游旺季游客太多怎么办&#xff1f; 相信不少景区特产店都有这种“甜蜜的困扰”。一方面游客多了&#xff0c;自然销售量见长&#xff0c;另一面人流多了&#xff0c;如何服务好顾客&#xff0c;也是特产店的一大难题。 客户询价&#xff0c;太忙没能第一时间回复&#xff1…

Linux15 消息队列 线程

目录 1、进程间通信IPC&#xff1a; 2、多线程 3、向消息队列中写入数据 4、从消息队列中读取数据 5、多线程&#xff1a; 6、将多线程的数据返回给主…