人工智能大模型多场景应用原理解析

news2024/9/22 10:08:29

前言

  • 在上篇文章《人工智能大模型之ChatGPT原理解析》中分享了一些大模型之ChatGPT的核心原理后,收到大量读者的反馈,诸如:在了解了核心原理后想进一步了解未来的发展趋势(比如生成式人工智能和元宇宙能擦出什么样的火花?),大模型如何优化现有技术(如:如何提高图像文档识别准确率等)…
  • 近期有幸参加了中国图像图形学学会和合合信息共同举办的CSIG企业行活动,对活动中的干货自己花了一些精力进行系统性研究与整理,在此与大家共享
  • 此次活动邀请了图像描述与视觉问答、图文公式识别、自然语言处理的自注意力模型、视觉创造的机器学习等领域的优秀学者前来分享交流;旨在面向文档图像分析与识别的前沿研究领域为学者们、从业者们提供交流与研讨的机会,促进产学研交流与合作
  • 本文站在大模型之ChatGPT的实际应用以及促进未来发展方向与大家共享,希望得到更多读者的反馈

学完本篇博文,你将学到哪些内容

  • 生成式人工智能和元宇宙相互促进
  • 生成式人工智能技术趋势
  • 文档结构建模(部首建模、SEM表格建模、训练模型)
  • 文档图像中底层视觉技术(扫描、矫正、去除阴影、防篡改)

全景一张图

在这里插入图片描述

元宇宙&生成式人工智能思考

生成式人工智能是什么?

一类能够生成新的、原创的内容的人工智能模型。这些模型通常基于深度学习技术,能够通过学习输入的数据,生成新的数据或者文本。这些模型已经在许多领域取得了成功,如图像生成、自然语言处理等。在元宇宙中,生成式人工智能可以用来创造新的虚拟物品、环境、角色等,丰富元宇宙的内容。

元宇宙是什么?

元宇宙是一个虚拟的、完全互联的世界,包括人工智能、虚拟现实、增强现实等技术的融合,使人们可以在其中进行各种活动。元宇宙是一个复杂的系统,需要大量的技术和资源来实现。

生成式人工智能和元宇宙的关系

生成式人工智能可以为元宇宙提供新的内容和创意,使其更加生动和有趣。同时,元宇宙也可以为生成式人工智能提供更多的数据和场景,以便其能够更好地学习和生成内容。

如何促进元宇宙实现?

要促进元宇宙的实现,需要采取多种措施,包括技术研发、投资支持、政策引导等。其中,生成式人工智能可以为元宇宙提供独特的价值,可以通过以下方式促进元宇宙的实现:

  1. 提供丰富的内容和创意,使元宇宙更加生动和有趣;
  2. 优化元宇宙的交互和用户体验,提高用户参与度;
  3. 促进元宇宙的商业化和价值创造,推动元宇宙向着可持续发展的方向发展;
  4. 加强元宇宙的安全和隐私保护,保障用户权益。

未来战略技术

  • 通过机器学习方法从数据中学习特征,进而生成全新的、原创的数据,这些数据与训练数据保持相似,而不是复制
  • 预计到2025,生成式人工智能产生的数据将占据人类全部数据的10%
  • 当生成式数据超过80%的时候,人类是否全面进入元宇宙?
  • Gartner预测,预计未来几年,生成模型将会变得更加智能化、自适应、多模态、可解释性和控制性、创造性应用将得到增长、更快、更高效、个人化等方面得到进一步发展
    在这里插入图片描述

深刻变革

  • 推动内容开发、视觉艺术创作、数字孪生、自动编程等
  • 为科学研究提供AI直觉,生成式人工智能是指可以生成类似于人类创造的东西(例如文字、图像、音乐等)的人工智能系统。这种系统使用机器学习算法,通过学习大量数据集中的模式来创造新的数据
  • 促进虚实融合(效率提升、体验提升、精神提升)
    在这里插入图片描述

数学原理

学习一个概率分布 p(x) 是指学习如何生成符合该分布的样本。一旦学习完成,我们可以通过采样来从该分布中生成新的样本,也可以通过呈现函数 f(x) 将样本呈现出来
[图片]

科学挑战

  • 解空间巨大(如何有效寻找并生成子空间);在高维空间中,解空间通常是巨大的,因此如何有效地搜索和生成子空间是一个重要的问题。常见的方法包括贪心搜索、遗传算法、蒙特卡罗方法和基于模型的优化
    在这里插入图片描述

  • 宏观一致性(如何预测目标及结构的长期运动变化);主要的解决方法包括基于光流的方法和基于深度学习的方法
    在这里插入图片描述

  • 微观清晰度(如何有效逼近多模分布),其关键在于如何有效逼近多模分布;目前主要的解决方法包括基于插值的方法和基于深度学习的方法
    在这里插入图片描述

现有技术

  • 学习概率分布其目标是根据给定的数据,学习出符合数据分布的概率分布模型。一般来说,学习概率分布可以通过显式求解、近似求解和隐式求解三种方法来实现
  • 神经网络渲染是指使用神经网络来合成高质量的图像或视频。其核心思想是将渲染问题建模为一个函数逼近问题,即输入场景描述和参数,输出合成的图像或视频。
    在这里插入图片描述

技术趋势

  • 从生成到推断(表观模拟—>物理现象内部机理推断),世界模型更逼近物理现实
  • 从平面到立体(立体视觉渲染、多模态驱动、动态模拟),数字人更逼真,更通用
  • 数字人与世界模型交互(在世界模型上训练智能体,可反哺真实世界中的决策过程)

图像文档复杂结构建模

背景

  • 文档中不同要素的结构信息,通过扫描文档,将标题,内容(汉字,表格)进行识别
    在这里插入图片描述

  • 基于编码器模型的结构化建模
    在这里插入图片描述

基于部首建模

  • 生成系统的联合优化策略设计,在文档智能处理领域,涉及到了多个方面的问题和技术,比如文档结构建模、错字检测、表格检测、PDF解析、神经网络渲染等。这些技术通过联合使用,可以实现文档智能处理的各种任务,例如文本识别、表格识别、图像识别、文档分析等
    在这里插入图片描述

  • 识别与生成任务中的注意力可视化,注意力机制被广泛应用于识别和生成任务中,用于将不同部分的文本信息分配给相应的建模单元
    在这里插入图片描述

  • 集外汉字生成对识别性能的影响,传统的汉字识别系统通常基于已知的汉字集合来训练和测试模型,这些汉字集合是事先确定的。如果集外汉字出现在测试集中,传统的汉字识别系统很可能无法正确识别这些汉字,因为这些汉字不在训练集合中。因此,集外汉字的出现会严重影响汉字识别系统的性能。
    在这里插入图片描述

  • 联合优化策略的性能分析,首先联合优化策略可以提高模型的泛化能力,即在新的数据上也能取得较好的性能;其次联合优化策略也可以提高计算效率;最后联合优化策略的收敛速度也需要进行分析。
    在这里插入图片描述

  • 弱化语言模型,提高错字的识别的召回率;由于语言模型对语言的先验知识和模式的强依赖性,当输入数据的领域和语言模型的训练领域不匹配时,语言模型可能会出现错误的纠正结果。因此,弱化语言模型的影响,提高错字的识别的召回率,是一种可行的方法
    在这里插入图片描述

  • 树型解码器原理,基本原理是将错字的识别问题转化为序列标注问题,通过建立错字候选集合和正确词典,来进行错误字符的纠正
    在这里插入图片描述

  • 解码依赖关系指的是在序列标注等任务中,当前标签的预测可能会受到之前预测标签的影响
    在这里插入图片描述

  • 解码算法流程以及实验结果;其中解码是自然语言处理中的一个重要环节,其目的是根据模型预测的得分,得到最优的输出序列或者结构;在实际应用中,根据任务的不同以及解码算法的特点,需要选择合适的解码算法。同时,针对不同的任务和模型,可以进行解码依赖关系的分析和解码算法的优化,以提高模型的性能。
    在这里插入图片描述
    在这里插入图片描述

  • 错字检测与错误定位的可视化分析,其中可视化分析在错字检测和错误定位任务中具有重要的作用,可以帮助我们更好地理解和分析数据和模型的结果,从而提高任务的效率和准确性
    在这里插入图片描述

基于SEM表格

  • split:将表格图像拆分成基础网格是表格识别和理解中一个重要的预处理步骤,其目的是将表格图像划分成基本的单元格,为后续的表格结构分析和内容识别提供基础
    在这里插入图片描述

  • 提取网格级别的多模态特征是表格识别和理解中的一个关键问题。表格中的内容通常包含文本、图像、公式等多种类型,因此需要利用不同类型的特征来描述单元格的内容,以便后续的内容识别和结构分析
    在这里插入图片描述

  • merge:完成基础网格归并并预测,在表格图像中,每个单元格可能由多个基础网格组成,因此需要将相邻的基础网格归并为单个单元格,以便后续的内容识别和结构分析
    在这里插入图片描述

  • 处理跨行跨列表格单元是表格识别和理解中的一项关键任务,涉及到单元格的合并和拆分,对表格结构的分析和内容识别有着重要的影响
    在这里插入图片描述

  • 处理多行文本的表格单元,主要涉及到如何将跨行的文本合并到同一个表格单元中进行识别和分析;处理多行文本的表格单元需要充分考虑表格中的语义信息和排版信息,以保证合并后的表格单元具有良好的可读性和结构性。同时,表格单元中可能存在多种文本类型和样式,因此需要综合利用多种特征进行跨行文本合并,以提高表格识别和理解的准确性和鲁棒性
    在这里插入图片描述

  • SOTA比对;在表格识别领域,目前的SOTA算法主要是基于深度学习的方法
    在这里插入图片描述

基于文档预训练模型

  • 文档结构:文本行级别树状可视化是一种常用的文档结构表示方式,它可以将文本行级别的结构关系呈现为树状结构,方便用户进行文档理解和编辑

  • 文档结构化任务是将文档中的非结构化或半结构化数据转化为结构化数据的过程,以方便后续的处理和分析
    在这里插入图片描述

  • PDF解析系统+图表检测模型可以实现自动化地解析PDF文档中的图表,从而方便后续的数据分析和处理
    在这里插入图片描述

  • 模型设置:将整体任务拆解是一种常见的模型设置技巧,它可以将一个复杂的任务分解为多个简单的子任务,并针对每个子任务分别设计不同的模型或者模型组合,从而提高整体模型的性能和可解释性
    在这里插入图片描述

  • 训练设置:联合学习是一种利用多个相关任务或多个数据源进行联合训练的方法。在训练过程中,模型同时考虑了多个任务或多个数据源的信息,从而可以提高模型的泛化能力和性能
    在这里插入图片描述

  • 结果
    在这里插入图片描述

文档图像处理中底层视觉技术

下面文档图像处理技术是合合信息公司重点技术,合合信息图像算法研发总监郭丰俊博士针对目前底层视觉技术在处理形变、模糊、阴影遮盖、背景杂乱的文档时遇到的典型问题,就公司技术团队在智能图像处理技术模块、融合技术典型应用、图像安全领域等领域的研究成果进行了分享;合合信息在智能文字识别、图像处理、自然语言处理(NLP)、知识图谱、大数据挖掘等核心技术领域深耕十余年,拥有百余项自主知识产权的发明专利

智能文档扫描

在这里插入图片描述

ROI提取

  • 票据ROI提取
    在这里插入图片描述

  • 多名片ROI提取
    在这里插入图片描述

形变矫正

  • 形变矫正(deformation correction)是图像识别中的一个重要预处理步骤,目的是对输入图像进行矫正,使得其形状、大小、方向等与模板图像一致,从而提高后续识别模型的准确性和稳定性

  • 文档还原
    在这里插入图片描述

  • 矫正网络,基于矫正网络的矫正方法则是通过训练一个矫正网络来实现形变矫正。这类方法通常使用卷积神经网络(CNN)或循环神经网络(RNN)等深度学习模型,将输入图像映射到与模板图像相似的形状。这种方法不需要进行特征点匹配,因此具有较高的计算效率和稳定性,但需要大量的训练数据和模型调优,且准确度受到模型设计和训练数据的影响
    在这里插入图片描述

  • 结果评价
    在这里插入图片描述

图像恢复-阴影去除
在这里插入图片描述

质量增强

  • 智能高清使用超分辨率和其他技术来增加图像的分辨率和清晰度,通常通过机器学习算法实现
    在这里插入图片描述

  • 去除摩尔纹框架,摩尔纹是数字图像中常见的一种干扰,可以采用图像处理方法去除。其中,去除摩尔纹的方法之一是去除摩尔纹框架,通过将图像进行小波变换、去除低频分量以及调整高频分量来实现。
    在这里插入图片描述

  • 摩尔纹去除效果
    在这里插入图片描述
    在这里插入图片描述

  • 手写擦除架构是一种用于手写字符识别中的方法,通过在神经网络中引入可学习的擦除操作,可以减轻数据噪声对识别性能的影响
    在这里插入图片描述

  • 手写擦除效果
    在这里插入图片描述

图像篡改检测

PS篡改检测

在这里插入图片描述

传统基于Exif检测PS

  • 是一种通过检查图像的Exif信息来判断其是否使用Photoshop等工具进行过编辑的方法
    在这里插入图片描述

网络结构

在这里插入图片描述

PS-篡改检测体验

在这里插入图片描述

更多功能体验地址

在这里插入图片描述

总结

  • 生成式人工智能是一种基于深度学习的AI技术,其通过学习海量数据中的规律和模式,能够生成新的数据、图像、语言等内容。这种技术在各个行业的应用都能够带来巨大的商业价值
  • 作为一个普通人我们应该如何把握住这次技术变革的浪潮呢?可以从以下四点入手:
    • 关注相关新闻和发展动态:保持关注人工智能领域的相关新闻和发展动态,了解最新的技术进展和应用场景,这有助于更好地把握人工智能的发展趋势和未来的应用方向。
    • 学习相关知识和技能:学习相关的知识和技能,如机器学习、深度学习、编程等,这有助于了解人工智能的基本原理和实现方式,为未来的发展做好准备。
    • 参与相关社区和活动:加入相关的人工智能社区和参加相关的活动,与其他爱好者和专业人士交流,分享自己的经验和观点,扩大自己的视野和网络,了解更多的信息和机会。
    • 创新和实践:尝试利用现有的技术和工具创新和实践,如尝试使用生成式人工智能技术生成一些有趣的图像、音乐或文字,这有助于提高自己的技能水平和创造力,同时也为自己未来的发展积累经验。
  • 把握生成式人工智能浪潮需要不断学习、实践和创新,同时也需要保持开放的心态和积极的态度,与时俱进地掌握人工智能的最新进展和应用场景,为自己的未来发展打下坚实的基础。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/431687.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

伪命题之MYSQL分库分表

看到使用分库分表来解决性能问题的时候心里总是不能太理解。 如果同事发生大量请求的时候,损害性能的是硬盘的随机读。那么分库分表也没有对性能的瓶颈进行“分治”啊。 应该的做法是使用一块新的硬盘来创建分库。但是基本的文章都没有提到这点。而且基本上也不会有…

价值导向型研发管理数字化建设方案——易趋亮相CCTI中国研发管理峰会

4月15日-16日,由光环国际举办的2023 CCTI中国研发管理峰会在北京中关村国家自主创新示范区会议中心成功举办。 (现场签到处) 此次峰会邀请了20余位来自腾讯、华为、网易、阿里云等知名企业的研发管理领域专家,带来最新前沿知识和内…

【网络安全知识体系】外网渗透测试 | 14个小实验

写在前面:视频地址 成功上岸360!0基础网络安全 入行 到 入yu、漏洞挖掘-外网渗透测试流程目录 一、导读: 二、汇总: 三、知识导图 四、面试常见问题 五、渗透测试流程 1、简述: 2、寻找测试目标 3、信息收集 …

webgl-简单动画

html <!DOCTYPE html> <head> <style> *{ margin: 0px; padding: 0px; } </style> </head> <body> <canvas id webgl> 您的浏览器不支持HTML5,请更换浏览器 </canvas> <script src"./main.js"></script&g…

程序员必用的6个代码对比神器附下载地址

一、WinMerge WinMerge是一款基于Windows系统下的文件比较和合并工具&#xff0c;使用它可以非常方便地比较多个文档内容&#xff0c;适合程序员或经常需要撰写文稿的朋友使用。WinMerge会将两个文件内容做对比&#xff0c;并在相异之处以高亮度的方式显示&#xff0c;让使用者…

认识网络随机丢包

考虑一根漏水的管子&#xff0c;希望出水口接到和不漏的管子等量的水&#xff0c;要么靠时间&#xff0c;反复将漏掉的水重新注入&#xff0c;直到漏掉的水可忽略&#xff1a; ​ 要么靠空间&#xff0c;在漏的地方将管子加粗&#xff0c;一次性注入更多的水&#xff1a; 不…

什么是HTTP? HTTP和HTTPS的区别?

目录 1、什么是HTTP? 2、HTTP的特点 ① 支持客户/服务器模式 ② 简单快速 ③ 灵活 ④ 无连接 ⑤ 无状态 3、HTTPS 4、HTTP和HTTPS的区别 ① 安全性不同 ② 默认端口不同 ③ 响应速度和资源消耗不同 ④ 网站申请流程不同 ⑤ 对搜索排名的提升不同 1、什么是…

基于OpenCV的硬币面值识别

本项目通过Python与Opencv结合数字图像处理技术对&#xff11;元、&#xff15;角、&#xff11;角三种硬币进行识别。首先通过Canny算子对图像进行边缘检测&#xff0c;然后进一步调用定义的函数去除边缘检测后图像中的孤立点&#xff0c;对处理后的图像进行Hough变换检测圆曲…

涨点技巧: 谷歌强势推出优化器Lion,引入到Yolov5/Yolov7,内存更小、效率更高,秒杀Adam(W)

1.Lion优化器介绍 论文:https://arxiv.org/abs/2302.06675 代码:automl/lion at master google/automl GitHub 1.1 简单、内存高效、运行速度更快 1)与 AdamW 和各种自适应优化器需要同时保存一阶和二阶矩相比,Lion 只需要动量,将额外的内存占用减半; 2)由于 Lion…

港联证券|机器视觉迎重磅利好,5只概念股获两路资金加持

现在我国机器视觉在工业场景中的全体渗透率仍旧在10%以下&#xff0c;比照工业场景巨大的体量而言&#xff0c;机器视觉职业仍有较大开展空间。 近来*ST中潜收到广东证监局行政监管措施决定书。依据深交所的相关要求&#xff0c;公司应当在2023年1月31日前发表公司股票或许被停…

windows安装opencv-python(opencv-python源码安装)

因为我要开启opencv的GStreamer功能&#xff0c;这是和ffmpeg相类似的对视频流操作的一个功能&#xff0c;默认没有开启&#xff0c;需要手动编译。 安装方式链接: opencv-install-with-GStreamer 核心内容如下: git clone --recursive https://github.com/skvark/opencv-py…

数据结构_第十二关:二叉树的基础OJ题练习

目录 1.单值二叉树 2.相同的树 3.另一棵树的子树 4.反转二叉树 5.对称二叉树 6.二叉树的结构及遍历 扩展&#xff1a;如何判断是不是完全二叉树、二叉树的销毁 1&#xff09;判断是不是完全二叉树 2&#xff09;二叉树的销毁 1.单值二叉树 OJ题链接https://leetcode.…

传输协议特点大比拼之UDP

文章目录 前言一.UDP协议端的格式源端口号和目的端口号报文长度校验和 二.UDP的特点无连接面向数据报不可靠缓冲区 前言 本文将比较两种主要的传输协议 ,UDP的特点&#xff0c;以帮助读者更好地理解它们的应用场景和优缺点。 一.UDP协议端的格式 大家先来看一些UDP的报文格式…

企业应用程序单点登录

企业每天都依赖于各种企业应用程序&#xff0c;包括云和本地应用程序。这意味着用户必须经常输入更多密码才能访问这些应用程序并完成他们的工作。为了提高用户的工作效率、减少密码疲劳并使身份管理更有效&#xff0c;您的组织需要部署高效的 SSO 解决方案。 AD360 提供企业 …

[STM32F103C8T6]ADC转换

什么是ADC转换&#xff1f; ADC转换的全称是&#xff1a;Analog-to-Digital Converter&#xff0c;指模拟/数字转换器 ADC的性能指标&#xff1a; ADC分辨率&#xff1a; SSA与VREF-一起接到地&#xff0c;DDA与VREF接到3.3v&#xff0c;所以ADC转换的范围是0---3.3v 所以最后的…

计算机网络复习——第4章 4.2.3 4.2.4 4.3

4.2.3 IP 地址与 MAC 地址 IP地址&#xff1a;虚拟地址、软件地址、逻辑地址。 网络层和以上各层使用。 放在 IP 数据报的首部。 MAC地址&#xff1a;固化在网卡上的 ROM 中。硬件地址、物理地址。数据链路层使用。放在 MAC 帧的首部。IP 地址放在 IP 数据报的首部&#xff…

Windows命令提示符之常见命令--动态更新

序言&#xff1a; 在大家接触Windows电脑的过程中&#xff0c;一般是直接通过鼠标来进行操作&#xff0c;很少甚至没有用到过命令来执行操作&#xff0c;而想必大家都看过电影里面的黑客大神都是通过密密麻麻的指令来操作的&#xff0c;并且执行的速度也会比我们用鼠标块&…

【严重】Artifex Software Ghostscript 任意命令执行漏洞(POC已公开)(CVE-2023-28879)

漏洞描述 Artifex Software Ghostscript是美国Artifex Software公司的一款开源的PostScript解析器。 Artifex Ghostscript 10.01.0及之前版本中&#xff0c;如果写入缓冲区的数据比总长度少一个字节&#xff0c;则尝试写入转义字符&#xff0c;导致两个字节被写入。攻击者可通…

WPF入门(三)--事件Event调用

1、WPF应用程序的关闭 WPF应用程序的关闭只有在应用程序的 Shutdown 方法被调用时&#xff0c;应用程序才停止运行。 ShutDown 是隐式或显式发生&#xff0c;可以通过指定 ShutdownMode 的属性值来进行设置。 对ShutdownMode选项的更改&#xff0c;可以直接在App.xaml中更改&a…

酒店管理系统(Servlet+JSP)

✅作者简介&#xff1a;热爱国学的Java后端开发者&#xff0c;修心和技术同步精进。 &#x1f34e;个人主页&#xff1a;Java Fans的博客 &#x1f34a;个人信条&#xff1a;不迁怒&#xff0c;不贰过。小知识&#xff0c;大智慧。 &#x1f49e;当前专栏&#xff1a;Java案例分…