这场大学生竞赛中,上百支队伍与合合信息用AI共克难题

news2024/12/24 20:34:18

目录

  • 0 校企联合共克难题
  • 1 北京林业大学:文档格式转换
  • 2 浙江中医药大学:个性化题库
  • 3 中南林业科技大学:交互场景挖掘
  • 4 重庆邮电大学:大模型赋能智能文档
  • 5 总结

0 校企联合共克难题

近日,中国大学生服务外包创新创业大赛决赛在江南大学圆满落幕。该项赛事是服务外包产业领域是唯一的创新、创业国家级赛事,紧贴现代服务经济和创新、创业、创富主题,强调应用导向和产学互动,在服务外包领域搭建一个大学生创新与创业能力展示平台。大赛引导社会公众和青年学生关注现代服务产业,吸引企业关注高校青年学生,促进高校教育改革贴合新兴产业发展需求,逐渐成为国内一流、具有国际影响力的服务外包行业青年创新创业展示盛典。

在这里插入图片描述

本次竞赛内容设计充分聚焦企业发展中所面临的技术、管理等现实问题,与产业的结合度更紧密,智能文字识别技术是大赛重点关注的技术之一。

随着信息技术的发展和应用场景的不断扩大,人们需要处理和利用大量的文档信息。而传统的手动处理方法效率低下,无法满足现代生活和工作的需求。文档图像智能分析与处理就是一个重要且极具挑战性的研究问题,智能文档识别技术基于人工智能和机器学习等技术,可以自动识别文档中的各种信息,如文字、图像、表格、条码等,然后将其分类、归档、摘要、提取等处理。

文档图像智能分析与处理技术被广泛应用在人们生活的方方面面,比如银行票据的自动分析处理、快递运单的自动识别、教科书的分析与识别、古籍文稿的分析与理解、数字档案、数字图书馆等等,极大地提高了信息的检索、处理、传播速率。总之,文档图像分析与识别技术的出现和发展极大地方便了人们的生活,也极大地促进了我们的社会向智能化、数字化、信息化发展。

合合信息在智能文字识别领域有着十余年深耕经验,基于自身在行业领域的认知,设计了基于学生需求对扫描全能王功能创新及商业推广等议题。

相关赛题吸引了全国70多所高校的近300支队伍积极参与,也涌现出许多优秀的作品。

下面我们就来看看青年学子们的“奇思妙想”吧!

1 北京林业大学:文档格式转换

北京林业大学的尽力就行队重点提出了对文档格式转换的设计方案。

在数字化时代下,越来越多的人需要将手写文本数字化处理。尤其是学校和各个专业领域中存在纸质数字化的办公学习需求。举例而言:

  • 大学生学习笔记记录转换。将手写笔记、便条、备忘录等文本转换为电子文本,以便更方便地管理和检索;
  • 特殊专业特殊场景。如医学生,法学生,许多手写病历和法律文书等文档需要转换为电子文本,以便更好地管理和分享;
  • 个人生活中,越来越多的人需要将手写信件、贺卡等转换为电子文本,以便保存和分享;
  • 教育行业中,学生需要使用手写笔记和答题,老师需要对学生手写的试卷进行批改审阅和存档。

在这里插入图片描述

北京林业大学:该图数据为记录笔记频度为“经常”“偶尔”“从不”的三类学生对“手写转word功能”的期待程度

尽力就行队提出了他们的技术方案:首先需要收集大量的手写文字图片,并对这些图片进行预处理,如调整大小、对比度和亮度等,以便后续训练和识别,接着设计一个合适深度学习模型,使用一部分手写文字图片进行模型测试和验证,根据测试结果进行模型优化和调整,以提高模型的识别准确率和鲁棒性。

然而,手写文字识别的难度远远大于手写数字识别,因此在神经网络架构的设计调优,以及数据集的质量方面都存在着很大挑战,不过他们的思路仍然对产品的功能完善有很好的启发作用。

此外,尽力就行队还设计了许多有意思的功能:

  • CAD与PDF互转功能

    服务于专业为工科,理科,艺术类的工程设计,将可查看的PDF在工程设计输出为CAD格式以供再编辑。将CAD图纸转换为PDF格式可以方便地保存和归档,使得文件易于管理和查阅。CAD和PDF格式均可以作为数字档案的载体,使得文件的传输、共享和备份更加方便。

  • 视频扫描提取页帧并转换图片功能

    可供大学生视频内容识别与检测。提取视频中的页帧并转换为PDF格式、高清图片。对学习视频资料和网课视频、录屏中的PPT文字内容识别提取。方便学生和教师进行参考和学习。制作学习视频文档或报告等

这些功能设计依托高校学生的实际需求,对现有产品的功能拓展具有现实的参考价值。

2 浙江中医药大学:个性化题库

浙江中医药大学的前兔无量队采用文件调查的形式,分析当前学习过程中的痛点:学生往往需要在课前、课中和课后都做好充足的准备,投入大量时间进行学习。然而,这个过程存在不少困难,包括课前预习生词难、课堂学习记笔记慢、课后复习、作业繁多、资料不能及时分享、做完试卷后复习易记答案和期末复习找题目分散等。

在这里插入图片描述

浙江中医药大学:课后复习在学生心目中是最重要的场景

前兔无量队总结出以下六个重点场景,对产品进行功能设计

在这里插入图片描述

浙江中医药大学:六大需求

部分场景已经存在现有的解决方案,例如生词解释可以使用扫描全能王的生词解释功能,首先拍照上传课本一页需要预习的地方,点击不懂的专有名词或者英语单词都可以轻松做出解释。可以同时点击多个生词,图片右边空白处会出现解释。提高了预习的速度和效率,可以节省时间预习其它课本,轻松提高上课的效率。

在这里插入图片描述

再如文字转手写功能,使用扫描全能王扫描可将电脑字体转化为手写字体。可根据自己上传的手写字迹模板转换,也可以从扫描全能王手写字模板中选取。手写字的背景也可进行选择,有作业本网线格等各种背景,让手写字迹更真实可信

在这里插入图片描述

前兔无量队也对扫描全能王原有功能进行优化和创新。例如试卷擦除功能——扫描完一张照片里的多个题目后,自动分离出一个个题目, 可用原有的试卷擦除功能 对题目进行字迹擦除。接着,利用题目乱序 、生成题库功能,将散乱的题目轻松汇合到一起,并可以打乱顺序出现,防止我们按顺序背答案最后更改题目出现的顺序。 扫描下的题目它可以选择保存到题库里,等用户需要复习加强印象时可从题库中做题复习,非常方便。

更进一步地,就是个性化题库的设计。这样的设计完全基于已有的功能进行组合扩展,但却可以使用户可以方便地进行个性化题库的管理和学习,大幅提升用户体验和学习效果。

在这里插入图片描述

浙江中医药大学:个性化题库设计

除此之外,前兔无量队也为扫描全能王设计了简单的社交功能。例如加好友功能、聊天功能,转发功能、传输文件等。对于异常情况的页面设计,也采用了品牌形象的插画形式,不仅增添了趣味性还起到了宣传品牌形象的作用,提升的产品的技术温度。

在这里插入图片描述

3 中南林业科技大学:交互场景挖掘

中南林业科技大学的浙芯队将扫描全能王已有的工具箱功能分为扫描服务、格式转换、文档编辑和其它四个大类,并对各个功能进行非常详细的深入分析和扩展。同时也随机调查了1000名大学生,来分析大学生使用扫描全能王各个功能的情况以及对扫描全能王的评价

在这里插入图片描述

中南林业科技大学:产品模块划分

在这里插入图片描述

中南林业科技大学:用户功能使用调研

以拍PPT为例,浙芯队首先对比了实际需求和传统方式痛点

序号场景使用传统方式痛点
1只想拍PPT 范围的图像不能只拍PPT 部分,会拍下其它区域
2位置偏,不能正对PPT拍摄拍得的PPT 图像是扭曲的,后期难以校正
3连续拍摄多张PPT不能自动将多张PPT 合成一个文件
4从PPT 中提取文字信息不能自动识别并提取文字

接着从产品中寻找解决方案,即采用扫描全能王的拍PPT功能,会自动捕
捉PPT,滤除非PPT 的画面在;拍摄完后会自动将PPT 进行校正,变成正面的PPT 图像;同时,支持连续拍摄,拍摄完成后用pdf 预览和分享功能将所有PPT 照片形成一个pdf 文档

在这里插入图片描述

中南林业科技大学:扫描全能王解决方案

另一个实例是表格识别。表格识别和处理在智能文档中是一项挑战性任务,具体在于

  • 多样性的表格结构: 表格可以具有多种不同的结构,包括合并单元格、多层表头、交叉行列等,这使得识别和解析表格变得复杂。不同的表格结构可能需要不同的处理方法;
  • 文档质量不一: 扫描文档或图像的质量可能不一,可能存在模糊、噪音、倾斜、阴影等问题,这会影响表格识别的准确性;
  • 字体和排版的多样性: 表格中的字体、字号、颜色等多样性使得文字识别更具挑战性。不同的排版方式可能导致识别错误,尤其是当表格的结构受到排版影响时;
  • 合并单元格和跨行跨列: 表格中的合并单元格和跨行跨列现象可能会导致数据提取和解析的困难。正确地还原这些信息以保持表格结构的准确性是一个挑战。
  • 文本语言多样性: 表格中的文本可能是不同的语言,甚至在同一文档中可能存在多种语言,这增加了表格数据识别的复杂性;
  • 歧义和上下文: 在一些情况下,表格中的数据可能存在歧义,需要依赖上下文信息来正确理解。缺乏上下文可能导致数据解析错误;
  • 大规模数据集和培训困难: 表格识别的性能通常需要大量的标注数据进行训练,然而,标注准确的表格数据集可能很昂贵且耗时。同时,标注复杂表格结构可能需要专业领域知识。

而对表格的处理又是日常工作的常见需求

序号使用场景场景描述适用人群
1写论文写论文,上网搜寻到相关数据,数据以图的形式呈现,需要汇总到一个表格中科研族
2日常办公相关的纸质的图表资料,需要形成电子档的表格学生干部族
3撰写数据分析报告在做各种数据分析报告时,搜集的数据以图片呈现、无法整理编辑数据,寻求数据的规律统计族

同样,浙芯队结合扫描全能王给出了解决方案,利用表格识别功能,导入一张图片或者拍摄一张图片,一键转换成Excel 表格,若要导出多张,则在导出Excel 的界面,选择添加页面,再导入图片,再点击该图片,最后再点击“导出Excel 表格”,多张表格的数据就自动汇总到一个Excel表格中。

除此之外,浙芯队还给出了拍证件照、文本转换、添加水印等非常丰富的交互场景分析,完善了产品使用的方案。

4 重庆邮电大学:大模型赋能智能文档

重庆邮电大学的傅里叶变换队结合更具体的技术,给出了各个功能场景下的创意

以学习研究场景为例,傅里叶变换队首先分析了思维导图的识别创意。思维导图简单却又很高效,可以应用在学习、生活、工作的任何领域当中,可以将大篇幅内容进行拆分,找到从属关系,缩减文字数量,便于理解与记忆。其中,括号思维导图是对一个事物的整体进行拆分分析,从而揭示整体和部分的关系,并能够对整体事物的微观构成形成比较清晰的认知。

在这里插入图片描述

重庆邮电大学:括号识别

傅里叶变换队指出,目前制作括号思维导图的方式有两种:

  • 通过软件制作电子版的导图,其优点是便于编辑和共享,但设备限制性大,当设备连接键盘时才更方便输入;
  • 手绘在纸质上,其优点是在理解知识内部逻辑的同时加深记忆,但可编辑性差(写错字不能直接擦除)、便携性差、不易美化、交互性差

目前已有方法实现了电子导图的识别和电子导图的手绘化,但缺少将手绘括号思维导图电子化的方法,但是该项功能的实现存在仍存在许多挑战,比如:识别准确性、再生成的限制、共享的安全性等

傅里叶变换队结合传统图像处理、计数、括号识别、文字识别、层次逻辑生成等技术,设计了以下的思维导图识别流程,整体架构清晰,具有可行性

在这里插入图片描述

重庆邮电大学:思维导图识别流程

其中,傅里叶变换队还自主设计了基于边界信息的层次逻辑生成算法,分别对文字块集合和左大括号集合进行聚合。

在这里插入图片描述

重庆邮电大学:基于边界信息的层次逻辑生成算法

此外,傅里叶变换队还设计了扩展业务

在开发出相应的思维导图制作软件或软件界面的基础上,加入协同编辑功能,一是可以使得教师可以实时方便地查看学生制作的思维导图,提高智慧课堂的效率;二是可以让多人同时查看优质的思维导图,提高分享学习的效率。在得到扫描结果的基础上,也可以对导图内容进行分析,建立多媒体检索推荐系统,满足学生在用思维导图学习时,想同时学习该思维导图所代表的全部知识的需求,一是通过检索相关的学习视频,二是检索相关的教材,三是进行知识补充。

总之,从技术到业务给出了非常详细且可行的设计方案。

在信息时代的浪潮中,大语言模型正以惊人的速度和无限的创造力引领着人工智能的新纪元。大语言模型不仅能够理解和分析人类语言,还能够生成高质量、富有创意的文本。从写作助手到内容创作,从自动化客服到医疗诊断,它们正在推动各行各业的创新。 这些模型不断通过海量数据进行自我学习,不断提升自己的表现。它们能够从多个领域的知识中吸取灵感,生成创新性的想法和解决方案。

傅里叶变换队抓住时代热点,设计了基于语言大模型的智能扫描问答AI的功能创意

在这里插入图片描述

重庆邮电大学:基于语言大模型的智能扫描问答AI

总体流程是:

  1. 用户扫描题目: 用户通过拍照或输入问题的方式提交待解答的题目。

  2. 知识库匹配: AI系统在预先构建的知识库中进行信息检索,找到与问题相关的知识点原文。

  3. 设计丰富提示词Prompt: 系统使用问题相关的信息,设计出几个丰富的提示词(Prompt),这个提示词将作为后续输入大语言模型的初始文本。

  4. 输入大语言模型: 利用强大的大语言模型,如GPT-4或文心一言,将丰富的提示词作为输入,以便生成更具上下文和语义的答案。

    接下来,定义两种AI系统的输出模式:

  5. 学霸版:在学霸版中,它可以根据问题直接给出解答,这个答案会被大语言模型生成,基于问题和相关信息。

  6. 导师版:在导师版中,可以给出题目涉及的知识点出处及讲解。这可以帮助用户更好地理解问题的背景和相关知识。

智能扫描问答AI结合了信息检索、大语言模型的生成能力以及输出定制化的答案。它能够为用户提供更全面的答案,不仅回答问题,还能提供相关的知识背景和解释。这种技术有助于提高用户学习效率,加深对知识的理解,并为用户提供了一个便捷的自主学习支持工具。

5 总结

随着信息技术的发展和应用场景的不断扩大,人们需要处理和利用大量的文档信息。而传统的手动处理方法效率低下,无法满足现代生活和工作的需求。因此文档图像智能分析与处理就成为一个重要且极具挑战性的研究问题。从各个参赛队伍的创意中,我们可以看到,基于人工智能和机器学习的智能文档处理技术,可以自动识别文档中的各种信息,如文字、图像、表格等,然后将其分类、归档、摘要、提取等处理,极大地提高了信息的检索、处理、传播速率。这个应用不仅仅局限于学生需求,而是可以扩展到更多的应用领域,例如物流行业中快递运单的自动识别、金融行业中银行票据的自动分析处理等,具有广阔的应用前景。

在智能文档处理的实际应用中,合合信息的产品扫描全能王表现出了强大的功能,举例而言

  • 办公文档处理:无论是在办公室还是在家庭办公环境中,用户都可以利用扫描全能王进行各类文档的扫描和处理,包括但不限于文件、表格、图表、手写笔记等。不仅如此,无论光照条件、背景复杂度如何,扫描全能王都能通过AI智扫引擎进行图像优化,提供高清晰度、高质量的扫描结果。
  • 教育资料处理:对于教师和学生,扫描全能王可以用于扫描、共享和保存教材、试卷、笔记等教育资料。特别是在当前远程教育越来越普及的环境下,扫描全能王可以方便地将纸质资料转化为数字格式,便于教学共享和资料存储。
  • 商务文档处理:在商业场景中,扫描全能王可以被用于处理各类商务文档,如发票、合同、订单等。其智能高清滤镜功能可以清晰识别和提取文档中的文字和图表信息,满足各种商务需求

扫描全能王集成了智能文档处理中的多种先进技术,例如弯曲矫正、去反光、去摩尔纹等,具备高度精准的识别能力。更进一步,扫描全能王的多语种识别技术不仅局限于主流的几种语言,而是覆盖了全球的众多语种。这使得扫描全能王可以为全球的用户提供服务,不论用户使用的是何种语言,扫描全能王都能够准确地识别和处理。同时也使得文档的处理更为流畅。用户无需进行复杂的设置或手动选择语种,扫描全能王能够自动识别文档的语言,并进行精准的处理。

总之,扫描全能王作为文档高效处理的办公产品,极大地提升了用户的使用体验,满足了全球化办公的需求。这使得扫描全能王在全球范围内得到了广泛的应用和好评。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/888072.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何使用CSS实现一个响应式视频播放器?

聚沙成塔每天进步一点点 ⭐ 专栏简介⭐ 使用CSS实现响应式视频播放器⭐ 写在最后 ⭐ 专栏简介 前端入门之旅:探索Web开发的奇妙世界 记得点击上方或者右侧链接订阅本专栏哦 几何带你启航前端之旅 欢迎来到前端入门之旅!这个专栏是为那些对Web开发感兴趣…

avue多选列表根据后端返回的某个值去判断是否选中;avue-curd多选回显

效果如上: getSiteList().then(res > {//列表数据this.siteData res.data.datathis.$nextTick(()>{this.siteData.forEach(item>{//业务条件if(item.configid&&item.configid!0&&item.configid>0){//符合条件时调用选中的方法this.$…

一文科普,买股票加杠杆是怎么回事?其利弊表现在哪?

买股票加杠杆是一种投资策略,通过借入资金来增加投资额度,进而放大投资回报。这种策略的利弊主要表现在以下几个方面。 首先,加杠杆的主要利表现在于放大投资回报。借入的资金可以投资更多的股票,当股票价格上涨时,投资…

XDR解决方案三

XDR未来的进化之路 精细化、智能化、个性化和场景化 当前XDR未来发展方向的问题分享了他的洞察和思考。刘庆林认为,精细化、智能化、个性化和场景化将是未来XDR的重要方向。 首先,实现精准防护的唯一路径,就是要从云、管、边、端、人五个维…

8.15 IO的多路复用

select的TCP客户端 poll的TCP客户端

探索网络架构的关键角色:六种常用的服务器类型

在今天的数字时代,服务器是支撑各种在线服务和应用的基石。不同类型的服务器在网络架构中扮演着不同的角色,从网页传输到电子邮件交换,再到文件传输和内容分发。本文将深入探讨六种最常用的服务器类型,解释它们的功能和重要性&…

梅林(Asuswrt-Merlin)>384.7固件自定义DDNS服务

指南https://github.com/RMerl/asuswrt-merlin.ng/wiki/DDNS-services配置文件示例https://github.com/troglobit/inadyn/tree/master/examples1 插入优盘,下载配置文件示例修改,以cloudflare为例 provider cloudflare.com {username 域名.compassword…

【后端必看】Redis 最佳实践

文章目录 1. Redis 键值设计1.1 优雅的 key 结构1.2 拒绝 BigKeyBigKey的危害如何发现BigKey①redis-cli --bigkeys② scan 扫描③第三方监控④网络监控 如何删除 BigKey 1.3 恰当的数据类型总结: 2. 批处理优化3. 服务器端优化-持久化配置4. 服务器端优化-慢查询优…

SpringBoot案例-员工管理-分页条件查询

根据页面原型,明确需求 页面原型 需求 查看接口文档 接口文档的链接如下: 【腾讯文档】SpringBoot案例所需文档 https://docs.qq.com/doc/DUkRiTWVaUmFVck9N 思路分析 分页条件查询就时将条件查询的结果进行分页展示,由于有的条件可能设…

问题:RuntimeError: Distributed package doesn‘t have NCCL built in

现象 python在windows环境下dist.init_process_group(backend, rank, world_size)处报错‘RuntimeError: Distributed package doesn’t have NCCL built in’ 原因分析 windows不支持NCCL backend 方法1 import sysif sys.platform "win32":os.environ["…

基于X86六轮差速移动机器人运动控制器设计与实现(一)软件与硬件架构

本文研究的六轮差速移动机器人 (Six-Wheeled Differential Mobile Robot , SWDMR) 为了满足资源站到资源站点对点的物资运输,对机器人的跨越障碍能力 有较高的要求。对比传统的四轮移动机器人,六轮移动机器人能够提供更强的驱动 力&#…

BBS项目day03、首页(前端文章布局、分类布局、标签布局)、个人站点(前后端实现)

一、首页 路由 from django.contrib import admin from django.urls import path, re_path from app01 import views from django.views.static import serve from django.conf import settingsurlpatterns [path(admin/, admin.site.urls),# 注册path(register/, views.reg…

「跑输」大盘!汽车业务收入同比下滑15%?虹软一站式方案收效甚微

作为国内A股市场为数不多的车载视觉交互概念上市公司,虹软科技的半年报表现,并不乐观。 数据显示,2023年上半年,虹软科技实现营业收入34,019.19万元,同比增长29.73%;归属于上市公司股东的净利润5,003.86万元…

力推C语言必会题目终章(完结篇)

W...Y的主页 😊 代码仓库分享 💕 今天是分享C语言必会题目最终章,全部都是硬货,大家都坐好准备开始喽!!! 编写一个函数,计算字符串中含有的不同字符的个数。字符在 ASCII 码范围内…

【深入理解Linux内核锁】三、原子操作

我的圈子: 高级工程师聚集地 我是董哥,高级嵌入式软件开发工程师,从事嵌入式Linux驱动开发和系统开发,曾就职于世界500强企业! 创作理念:专注分享高质量嵌入式文章,让大家读有所得! 文章目录 1、原子操作思想2、整型变量原子操作2.1 API接口2.2 API实现2.2.1 原子变量结…

国家一带一路和万众创业创新的方针政策指引下,Live Market探索跨境产业的创新发展

现代社会,全球经济互联互通,跨境产业也因此而崛起。为了推动跨境产业的创新发展,中国政府提出了“一带一路”和“万众创业、万众创新”的方针政策,旨在促进全球经济的互联互通和创新发展。在这个大环境下,Live Market积…

【24择校指南】华东师范大学计算机考研考情分析

华东师范大学(B) 考研难度(☆☆☆☆) 内容:23考情概况(拟录取和复试分数人数统计)、院校概况、23考试科目、23复试详情、各科目及专业考情分析。 正文2563字,预计阅读:3分钟。 2023考情概况…

Springboot 集成Beetl模板

一、在启动类下的pom.xml中导入依赖&#xff1a; <!--beetl模板引擎--><dependency><groupId>com.ibeetl</groupId><artifactId>beetl</artifactId><version>2.9.8</version></dependency> 二、 配置 beetl需要的Beetl…

【Java转Go】快速上手学习笔记(二)之基础篇二

【Java转Go】快速上手学习笔记&#xff08;二&#xff09;之基础篇一 了解了基本语法、基本数据类型这些使用&#xff0c;接下来我们来讲数组、切片、值传递、引用传递、指针类型、函数、泛型、map、结构体。 目录 数组和切片值传递、引用传递指针类型defer延迟执行函数泛型ma…

c++通过gsop调用基于https的webservice接口总结

ww哦步骤&#xff1a; 第一步&#xff1a;生成头文件 webservice接口一般会有一个对外接口文档。比如&#xff1a;http://www.webxml.com.cn/WebServices/WeatherWebService.asmx?WSDL 问号后面的参数表示WSDL文档&#xff0c;是一个XML文档&#xff0c;看不懂配置没关系&a…