探索AI领域,AI图像安全技术助力行业健康发展

news2024/10/7 20:36:15

在这里插入图片描述

目录

    • 一、AI时代降临
    • 二、AI+OCR与传统OCR技术
    • 三、通过人工智能模型生成AI图片技术探索
    • 四、提前布局,合合信息AI图像安全技术助力行业健康发展
      • 1、识别医疗门诊发票和报告
      • 2、图像篡改检测升级,截图篡改检测
      • 3、AIGC判别,人脸伪造检测
      • 4、OCR对抗攻击
    • 五、实现可信AI的工业化应用落地
    • 六、总结

大家好,我是哪吒。

一、AI时代降临

去年11月ChatGPT横空出世之后,生成式AI向人们展示出了自己的强大力量,各种大模型如雨后春笋一样涌现,并实现了大规模的商业化。

闲暇之余,我也研究了一番,发现AI在图像处理领域具有许多卓越的优点。其中一项突出的优势是,AI可以快速准确地处理大量的图像数据,大大提高了工作效率。相比传统的人工处理方式,AI可以同时处理多个图像,并在短时间内完成任务。这对于需要处理大规模图像数据的行业,如写博客、电子商务和医学影像等领域,具有极大的意义。

AI在图像处理中可以提供更加准确、精细的结果。通过深度学习和神经网络等技术,AI能够自动学习和识别图像中的特征,从而实现图像内容的分析和理解。这使得AI在人脸识别、图像识别、图像分类等任务中表现出色,并且具有高度的准确性和稳定性。

在本届世界人工智能大会(WAIC 2023)上,中国信通院围绕“多模态基础大模型的可信AI”主题举办了专项论坛。论坛上,合合信息AI图像内容安全技术方案获得广泛关注,合合信息长期聚焦AI+OCR在文档智能领域中的前沿技术探索,"细粒度"视觉差异图像鉴别、证件文档图片信息鉴别、生成式图像判别、文档图像完整性保护等行业焦点议题,通过技术输出、产品服务帮助个人及企业保护图像内容安全。

”AI+OCR”为我们带来了哪些技术上的突破呢?

在这里插入图片描述

二、AI+OCR与传统OCR技术

传统OCR技术已经存在了很长时间,但随着AI的发展,AI+OCR技术也逐渐崭露头角。鱼和熊掌不可兼得的道理谁都懂,那么,问题来了,哪一个更好呢?

传统OCR技术主要是基于模板匹配和特征提取的方法来实现字符识别。而AI+OCR则使用深度学习算法,如卷积神经网络(CNN)和循环神经网络(RNN)等。与传统OCR技术相比,AI+OCR可以更好地处理复杂的图像,并且具有更好的自适应能力。

对于单一字体、规则排列的文本,传统OCR技术可以实现非常高的精度。然而,在处理复杂排版的文本时,传统OCR技术可能会出现错误。相比之下,AI+OCR可以更好地处理这些复杂排版文本,并且具有更高的准确性。

传统OCR技术通常比AI+OCR更快,因为它不需要进行大量的训练和学习。然而,在处理复杂场景的文本时,传统OCR技术的速度可能会变慢。相比之下,AI+OCR可以更快地处理这些文本,并且具有更好的灵活性。

传统OCR技术通常适用于单一字体、规则排列的文本。然而,AI+OCR可以处理多种字体、多种语言,并且可以自适应地处理不同场景下的文本。因此,AI+OCR在处理多样化的文本时更加适用。

随着人工智能技术的不断发展,AI+OCR将会成为文档数字化领域的主流技术。未来,AI+OCR将会更加智能、更加自适应,并且可以处理更加复杂的文本。

三、通过人工智能模型生成AI图片技术探索

人工智能模型生成AI图片主要基于深度学习技术和生成对抗网络(GAN)技术。

在深度学习技术中,卷积神经网络(CNN)被广泛应用于图像识别、分类和生成任务中。通过对大量图像数据进行训练,深度学习模型可以学习到图像中的特征和结构,从而能够生成类似的图像。

在生成对抗网络(GAN)技术中,有两个神经网络:生成器和判别器。生成器负责生成图像,而判别器则试图区分生成的图像和真实图像。这两个网络通过互相博弈来不断提升生成器生成逼真图像的能力。

具体而言,生成器会接收一个随机向量或文字描述作为输入,然后通过多层神经网络逐渐将输入转化为图像。生成器的设计是一个关键因素,它需要能够理解输入的语义信息,并将其转化为准确的图像特征。此外,对于文字描述生成图像的应用,通常会使用大规模的训练数据集来学习图像和文字之间的联系,以便在生成过程中根据输入的文字描述生成对应的图像。

人工智能模型生成AI图片的技术仍在不断发展和改进中,但它们的核心基础是深度学习和生成对抗网络技术。

四、提前布局,合合信息AI图像安全技术助力行业健康发展

1、识别医疗门诊发票和报告

通常情况下,人眼能够鉴定出来的伪造图片多具有拼接痕迹、色差,或者字形字体与原图相比有明显的差异,魔高一尺道高一丈,制作出以假乱真的图片绝非难事,因此,采用科技手段进行图片鉴别是防范风险的必要方式。

在这里插入图片描述

传统的图像篡改检测方法主要有基于可交换图像文件格式的信息判断,基于图像块的分类方法,手工设计的图像内在特征统计等方法,在面对全局性的裁剪、调色处理,拼接组合、擦除等组合式造假手法时,这些检测方式在覆盖面、精准度层面均存在可提升的空间。

针对现有检测方法的不足,合合信息基于深度学习的图像篡改检测方法,推出了“PS篡改检测”技术,能针对存在人眼几乎不可见的“细粒度”视觉差异的伪造图像进行篡改检测及定位,在身份证检测场景中,篡改检测准确率超99%。

2、图像篡改检测升级,截图篡改检测

在本届世界人工智能大会(WAIC 2023)上,合合信息AI图像检测“黑科技”持续优化升级,去年主要检测在证件、票据等商业材料的PS痕迹,今年升级后的篡改检测技术可检测包括转账记录、聊天记录等截图。

比如给定一张聊天截图,输入到篡改检测模型中,能够判别这张图像是否被篡改过,并且定位出篡改图像的区域。下面这张图,在模型中,被识别为篡改,并通过白色小点,标识出被篡改的位置。

在这里插入图片描述
与自然图像、证件照图像识别相比,截图的背景没有纹路和底色,整个截图没有光照差异,难以通过拍照时产生的成像差异进行痕迹判断,现有的视觉模型通常难以充分发掘原始图像和新图像的细粒度差异特征。

为此,合合信息提出了一种基于HRNet的编码器-解码器结构的图像真实性鉴别模型,结合图像本身的信息,包括但不限于噪声、频谱等, 从而捕捉到细粒度的视觉差异,达到高精度鉴别效果。
在这里插入图片描述

3、AIGC判别,人脸伪造检测

开年以来,以语言生成类、视觉生成类模式为代表的AIGC产品引发了社会对于图文内容“可信度”问题的讨论。AIGC爆火的背后,生成式AI向人们展示出了自己的强大力量,各种大模型如雨后春笋一样涌现,并实现了大规模的商业化。

那么,怎么才能有效的识别出AI图片和真实图片呢?

这有两个难点,比如生成出来的图像场景繁多,不能穷举,不能通过训练解决;有些生成图和真实图片的相似度过高,很贴近于人类的判断,对于机器而言,真伪判定只会更难。合合信息基于空域与频域关系建模,能够在不用穷举图片的情况下,利用多维度特征来分辨真实图片和生成式图片的细微差异。

模型结构如下图所示:
在这里插入图片描述
输入图片后,模型通过多个空间注意力头来关注空间特征,并使用纹理增强模块放大浅层特征中的细微伪影,增强模型对真实人脸和伪造人脸的感知与判断准确度。

在这里插入图片描述

4、OCR对抗攻击

有些时候,我们需要将身份证、驾驶证、重要证件图片通过社交媒体发给朋友,或者公司人事,同时我们又不想让这些信息被软件的AI系统识别分析。

合合信息科技已经研制出此项技术,可以既不影响人类的阅读,又可以避免让社交媒体软件对我们的证件图片进行识别分析。

在这里插入图片描述

五、实现可信AI的工业化应用落地

可信AI的概念是由何积丰院士2017年在香山科学会议的第36次学术研讨会上首次引入的。是用来解决在人工智能的应用过程中,数据隐私、安全性、公平性等问题而提出的。

可信AI并非新事物,但随着AI的广泛应用和普及,可信AI的重要性逐渐凸显。

要实现可信AI的工业化应用落地,还需要更多行业领先公司承担起责任,借助标准化、开放化的技术手段来统一规范和解决可信AI的问题。合合信息深耕智能文字识别、智能图像处理领域,技术成果获权威机构及市场认可。最近一个月内,公司智能文档处理产品通过中国信通院“可信AI—智能文档处理系统”评估工作,并获得“5级”评定,“5级”为该模块最高评定等级。

合合信息与中国信通院等权威机构一道,携手国内顶尖院校、研究机构及企业,共同探索AI技术在图像领域的可信化落地这一深远命题,助力科技向上的同时向善发展。

六、总结

AI图像内容安全技术正在走进我们的生活,比如文中提到的识别医疗门诊发票和报告、识别聊天记录、文档图像截图篡改,AIGC判别人脸伪造检测、OCR对抗攻击等应用,大大的提高了我们的生活质量,保障了我们的信息安全,提升AI服务的规范性,助力图像产业健康成长,为文档图像内容安全提供保障,助力新时代AI安全体系建设。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/743665.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

WebSocket使用记录

使用视频地址 1、添加前端使用文件 2、后端配置 2.1添加依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-websocket</artifactId></dependency>2.2添加websocket配置类 import org.spri…

NETSDK1141 无法解析位于 global.json 中指定的 .NET SDK 版本

1. 使用cmd命令 dotnet --info 查看自己使用的SDK版本 3.直接找到项目中的 global.json 文件&#xff0c;右键打开&#xff0c;直接修改版本为本机的SDK版本&#xff0c;就可以用了 微软文档也有详细说明: ​​​​​​NETSDK1141&#xff1a;无法解析 global.json 中指定的…

浅析CAS

CAS基本使用 以ReentrantLock为例&#xff0c;观察CAS基本使用。 class ReentrantLockExample {int a 0;// 非公平锁ReentrantLock lock new ReentrantLock(false);public void writer() {// 获取锁lock.lock();try {a;} finally {// 释放锁lock.unlock();}}public void re…

生产环境 kafka 平滑迁移之旅

文章目录 背景分析测试环境验证现实很残酷两种抉择-----leader分区切换方案选择实施步骤手工副本集增加步骤手工leader分区切换步骤 总结 背景 线上kafka集群&#xff0c;3台机器&#xff0c;3个broker&#xff1b;其中某台机器因为硬件故障&#xff0c;需要停机维修&#xff…

MSP432学习笔记12:MSP432时钟源与定时器A时钟源配置

今日深入学习一下MSP432的时钟源与配置&#xff0c; 可以结合之前的滴答计时器相关文章&#xff1a; MSP432学习笔记4&#xff1a;时钟与滴答计时器_NULL指向我的博客-CSDN博客 目录 MSP432有关时钟源系统的性能&#xff1a; 七种时钟源&#xff1a; 五种时钟&#xff1a; …

创新实践,复合机器人采摘运输教育沙盘案例研究

引言 在之前我们已经介绍了水果采摘和分拣机器人的应用场景&#xff0c;今天我们来介绍复合机器人水果采摘运输的场景。 作为最热门的技术领域&#xff0c;机器人技术正在彻底改变各行各业&#xff0c;推动全球创新。为了满足这一快速发展领域对专业技术人才日益增长的需求&a…

【Matlab】智能优化算法_广义正态分布优化算法GNDO

【Matlab】智能优化算法_广义正态分布优化算法GNDO 1.背景介绍2.数学模型2.1 局部开采2.2 全局勘探 3.文件结构4.伪代码5.参考文献 1.背景介绍 GNDO受到正态分布理论的启发。正态分布也称为高斯分布&#xff0c;是描述自然现象的一个非常重要的工具。正态分布可以定义如下。假设…

NLP Transformer的Decoder的输入输出都是什么?能解释一下每个部分都是什么?

要弄清楚Decoder的输入输出&#xff0c;关键在于图示三个箭头的位置&#xff1a; 以翻译为例&#xff1a; 输入&#xff1a;我爱中国输出&#xff1a; I Love China 因为输入&#xff08;“我爱中国”&#xff09;在Encoder中进行了编码&#xff0c;这里我们具体讨论Decoder的…

【工具推荐】企业微信、企业飞书接口调用工具

github地址: GitHub - fasnow/idebug: 企业微信、企业飞书接口调用工具。 简介 企业微信、企业飞书接口调用工具。 使用方法 wechat模块 使用use wechat 选择模块。 首先设置corpid和corpsecret&#xff0c;如有需要可以设置代理&#xff0c;之后再执行run命令。 导出通信…

飞行动力学 - 第6节-part3-风对航程的影响 之 基础点摘要

飞行动力学 - 第6节-part3-风对航程的影响 之 基础点摘要 1. 风对航程的影响2. 典型飞机航程3. 世界上最长航线4. 参考资料 1. 风对航程的影响 可以认为风移动的距离相当于飞机在静止空间移动的距离加上风移动的距离。 在物理上可以简单的理解为两个矢量叠加和。 回顾喷气式&…

WebGPU实战3D电商

在过去的几年里&#xff0c;我们一直在为 WebGPU 编写新版本的 Babylon.js 引擎。 随着下一代 Web 3D 即将在Chrome 102~103版本上公开WebGPU 1.0 &#xff0c;人们的兴奋情绪与日俱增。 在这篇博文中&#xff0c;我将快速概述这个新的 Babylon.js WebGPU 引擎&#xff0c;并将…

100种思维模型之安全边际思维模型-92

安全边际&#xff0c; 简而言之即距离某一件糟糕的事件发生&#xff0c;还有多大的空间&#xff0c;安全边际越高&#xff0c;我们就越安全&#xff01; 安全边际思维模型一个 让生活变得更从容 的 思维模型。 01、何谓安全边际思维模型 一、安全边际思维 安全边际 源于…

千云探探监测到7月4日法国Facebook社交网络异常

针对法国近期出现的骚乱游行&#xff0c;法国司法部长莫雷蒂7月1日时候表示&#xff0c;法国检察官要求互联网运营商提供在社交平台Snapchat上号召骚乱年轻人的IP地址。 法国总统马克龙7月4日表示&#xff1a;“如果事态失控&#xff0c;我们可能需要监管或关闭它们&#xff0…

idea 添加类库

打开项目中的独立环境文件夹&#xff0c;右键打开终端输入安装类库的命令&#xff1a; pip install requests pip3 install BeautifulSoup4 检查这里是否把类库加进来了&#xff0c;加进来就完成&#xff01;

第十二章 kafka

Producer:Producer即生产者,消息的产生者,是消息的入口。 kafka cluster: Broker:Broker是kafka实例,每个服务器上有一个或多个kafka的实例,我们姑且认为每个broker对应一台服务器。每个kafka集群内的broker都有一个不重复的编号,如图中的broker-0、broker-1等…… 主…

Windows如何恢复已删除的Word文档?

案例&#xff1a;可以恢复已删除的Word文档吗&#xff1f; “大家好&#xff0c;我遇到了一个问题&#xff0c;需要大家的帮助。昨天我编辑了一个Word文档并保存到了桌面上&#xff0c;但当我今天再次打开电脑时&#xff0c;它就不见了&#xff01;昨天工作完成后&#xff…

mysql数据库以及管理流程

目录 1.基本概念 2.DBMS工作模式 3.关系型数据库和非关系型数据库 4.数据库管理 sql语句 5.一些命令 6.增删改查命令 DDL DML 7.案例 创建表 删除 DML管理表中内容 增加内容 改内容 删内容 DCL具体应用 1.基本概念 1.数据 描述事物的符号记录(数字 文字 图像等) …

【报错记录】解决CentOS免密失败的问题,以及解决免密问题的排查流程

前言 本文相当于对之前的文章进行的补充【原创】三台CentOS7非root用户间实现相互间的免密登录_DCTANT的博客-CSDN博客 现场遇到一台旧服务器与其他服务器免密失败的问题&#xff0c;明明.ssh目录中authorized_keys中的公钥设置都是正确的&#xff0c;但是别的服务器连它都得…

基础篇--STM32原理图设计

学会查看数据手册 芯片数据手册获取方式 ST官网&#xff1a;https://www.st.comST中文社区网&#xff1a;https://www.stmcu.org.cn/ 数据手册内容概要 芯片的基本参数&#xff08;STM32F103ZET6为例&#xff09; 主频/FLASH/SRAM &#xff1a; 72MHz/512KB/64KB工作电压/…

vue3 + axios 实现带进度条的下载对话框

文章目录 问题实现采用axios实现下载请求写一个进度下载对话框调用对话框 参考链接 问题 上传下载是前端经常面临的两大需求&#xff0c;当文件比较大时&#xff0c;下载进度显示能提升用户体验。本文结合vue3介绍下载对话框的实现。当点击页面中下载按钮后&#xff0c;会呈现…