【大比武10】行业垂直大模型应用在档案管理中的探索

news2024/11/24 2:41:31

关注我们 -  数字罗塞塔计划  -  

# 大比武2024

本篇是参加“华夏伟业”杯第二届档案信息化公司业务与技术实力大比武(简称“大比武 2024”)的投稿文章,来自广州龙建达电子股份有限公司,作者:陶宣任

在这个人工智能技术飞速发展的时代,随着大模型的技术能力逐渐成熟,面向行业的垂直大模型开始在各行各业得到应用,比如在档案的收、管、存、用过程中尝试借助行业垂直大模型来辅助管理者实现高效管理。本文通过分析行业垂直大模型的能力与档案管理需求之间的结合方式,探索行业垂直大模型如何提高档案管理效率。

一. 何为行业垂直大模型?

通用大模型通常指的是能够处理各种领域和主题的大型语言模型,例如ChatGPT和Llama 3。通用大模型在多个领域具有广泛的知识和能力,具备能够回答各种问题、提供多领域的信息与支持、自动编程等能力。而行业垂直大模型是指针对特定行业或领域进行微调训练的大型语言模型,这些模型会基于特定行业的数据和应用场景进行微调,以提供更专业和精确的信息和支持。例如在档案行业中,可以构建一个专门针对档案收集、整理、检索、利用等场景进行微调的档案行业垂直大模型(以下简称“档案大模型”)。

图片

二. 档案管理过程中的创新应用场景

在传统档案管理过程中,随着文件类型、档案数量的增加,对于档案工作者而言,无疑大幅度增加了他们的日常工作压力,从档案的接收、整理、保管,再到检索利用,每份档案的生命周期都需要工作者干预。为此,根据档案管理流程,结合实际业务情况,总结出档案管理过程中可以进行创新建设的应用场景:

图片

01 档案自动化整理

档案整理工作往往是重复而又繁琐,需要对大量待归档的电子文件进行元数据收集、分类、组件、编号、编目、归档等人工操作,希望可以通过技术手段自动化处理档案整理中的一系列任务,人工只需审核整理结果而无需进行整理工作,从而将档案工作者从繁重的档案整理工作中解放出来。

02 构建档案信息“大脑”

在传统的档案检索过程中,由于检索引擎技术限制,且著录信息有限,常用的目录检索或是关键字检索等传统方式,往往只能对档案数据库中的结构化数据信息进行检索,查全率和查准率都不尽如人意。需要借助工具自动学习各类档案中的内容,构建档案信息“大脑”,利用者无需通过检索方式来获取所需信息,只需通过“自然语言交互方式”即可,快速实现有关档案的相关问题解答或是精准全面的档案查询利用。

03 档案智慧编研

传统档案编研受限于档案检索功能的不完善以及编研人员的个人知识结构,许多珍贵、有价值、和主题相关度高的档案无法进入编研范围,进而影响到编研成果。利用先进的AI技术对海量档案数字资源进行智能识别,自动完成档案信息的整理和归集,并智能根据编研主题类型和格式要求生成报告,输出各种格式的编研成果,实现档案编研的智能化。

三. 构建档案行业垂直大模型

档案业务的主要工作有接收、整理、鉴定、保管、检索、利用、编研、统计等,事实上,每个业务过程都可以借助行业垂直大模型来辅助操作,进而实现档案管理的变革创新,提高档案管理效率。

档案大模型具体实现方式如下:

图片

01 行业垂直大模型本地化

不同于通用大模型,行业垂直大模型具备本地化学习的能力。由于档案的特性,档案大模型不能采用互联网模式,需通过NLP等技术对本地档案数据进行不断训练和学习。档案大模型本地应用流程示意图如下:

图片

02 支持“学习”各类文件

通用大模型一般只支持纯文本交流,而电子档案的文件格式多种多样,档案大模型本地化后必须做到“不挑食”。其具有强大的各类文件解析学习能力,可对档案库中的常见文件类型进行学习,如文书档案的PDF/OFD/XML格式、照片档案的JPEG格式、音频档案的MP3格式、视频档案的MP4格式等等,这样才能真正辅助管理档案。文件解析流程示意图如下:

图片

03 理解“人话”

基于本地档案数据构建档案知识库,利用档案大模型的自然语言交互能力和理解能力,借助向量数据库的加持,搭建一个“AI智能问答系统”。实现能以自然语言问答方式进行档案的“问答式利用”,要求该系统能理解“人话”,能以人的方式进行思考,并能通过“人话”和管理员进行沟通。

图片

四. 使用行业垂直大模型赋能应用场景

依托档案大模型,就可以赋能档案自动整理、AI智能问答、智慧编研等创新应用场景了,从而实现档案高效管理。

01 档案自动高效整理

快速针对tif、jpg、ofd、pdf等常见格式的电子档案进行智能档案整理,实现自动分类和元数据信息自动捕获,智能提取电子文件内容中的有效信息,高效完成档案的智能分类、编号、排序等业务操作。比如提取文书类档案中的文号、发文时间、标题、发文单位、抄送、主题词等元数据信息,并对著录项进行自动赋值。档案整理人员只需上传档案到本地库,然后确认大模型输出的整理结果是否无误即可,无需进行繁琐的整理工作。下图是通过大模型对某份文件进行自动整理的系统页面,可以清晰看到这份文件上传后,大模型就能从文件内容中识别并提取出这份文件需要著录的元数据信息:

图片

02 档案AI智能问答

在“AI智能问答系统”中只需输入相应任务要求,大模型会自动理解文本语义并基于AI的思考方式进行数据检索和整理,然后利用强大的自然语言表达能力输出易于理解且匹配任务要求的档案信息结果,从而为用户提供快速、准确、智能的回答和智能检索,提升档案资源的利用效率和管理效率。下图是人工提出两项任务要求后,大模型根据本地档案的实际情况显示智能回答结果的系统页面,且每个回答结果都注明来源,确保需人工确认的时候可以快速判断该结果是否准确。

图片

03 档案智慧编研

选择合适的档案数据对大模型进行训练学习,使其具备一定深度的档案行业语言理解能力以及对话生成、文章创作等能力,编研人员只需要输入编研主题,智慧编研系统即可自动开展档案编研工作,自动生成档案编研成果。

图片

由于编研成果(比如大事记、年鉴、主题展览等)对于内容归纳、总结、提炼的要求较高,现阶段档案大模型赋能智慧编研的效果尚不能达到行业专家的水平,但可以帮助编研人员进行相关材料的汇聚和整理。

五.总 结

总体而言,现阶段行业垂直大模型的应用已经能够在一定程度上提高档案管理的效率,比如实现档案自动整理、快速问答、便捷利用等任务,减轻档案工作者的压力,促进档案信息资源的开发和利用。然而,行业垂直大模型技术离成熟还有一段距离,人工的参与和监督仍是必要的,需对最终输出的结果进行验证和修正,以确保结果的准确性和合规性。未来,随着行业垂直大模型的能力越来越强,赋能档案管理中的应用场景也会越来越丰富,类似于上文中提到的难度相对较大的智慧编研任务,通过大规模、针对性档案数据的训练学习并不断优化模型之后,相信也能输出超越人工整理的优质编研成果。

数字罗塞塔计划公众号致力于成为全国领先的档案信息化知识分享与交流平台。独木难成林,众创力量大!作为中立的第三方平台,我们将努力为广大档案信息化从业企业提供一个展示自身业务与技术专业水平的舞台,共同推动档案行业的进步与发展。

关注我们 -  数字罗塞塔计划  -  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1718542.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

学习笔记:(2)荔枝派Nano开机显示log(全志F1C200S)

学习笔记:TF卡启动荔枝派Nano(全志F1C200S) 1.u-boot配置2.需要配置LCD的显示设备树1.u-boot配置 ARM architecture Enable graphical uboot console on HDMI, LCD or VGAx:480,y:272,depth:

李廉洋:5.31黄金原油末日砸盘,美盘分析及策略。

黄金消息面分析:过去几天股市的抛售也是金属市场的利多因素。美国商务部将第一季度GDP预期从1.6%下修至1.3%后,美国国债收益率下降。同时,美国劳工部公布,上周首次申请失业救济人数从前一周修正后的21.6万人上升至21.9万人。综合来…

python3.5如何安装numpy

python3.5如何安装numpy?步骤如下: 1.首先应该将你的Python环境变量设置正确。检验是否正确的方法就是winR,输入cmd 。在窗口中输入python,应该得到如下所示的效果图: 可以在命令框中直接编译python。 2.安装pip&…

【农村电商1004】 电子商务进农村示范县名单:全面数据集等你探索!

今天给大家分享的发表在国内顶级期刊金融研究的2023年论文《农村发展电子商务能减缓资本与劳动力要素外流吗?——以电子商务进农村综合示范案例为例》使用到的重要数据集电子商务进农村综合示范政策县数据,该论文采用了双重差分法和全国县域面板数据研究…

MySQL:MySQL执行一条SQL查询语句的执行过程

当多个客户端同时连接到MySQL,用SQL语句去增删改查数据,针对查询场景,MySQL要保证尽可能快地返回客户端结果。 了解了这些需求场景,我们可能会对MySQL进行如下设计: 其中,连接器管理客户端的连接,负责管理连接、认证鉴权等;查询缓存则是为了加速查询,命中则直接返回结…

[代码复现]Self-Attentive Sequential Recommendation

参考代码:SASRec.pytorch 可参考资料:SASRec代码解析 前言:文中有疑问的地方用?表示了。可以通过ctrlF搜索’?。 环境 conda create -n SASRec python3.9 pip install torch torchvision因为我是mac运行的,所以device是mps 下面…

谁是镰刀谁是韭菜?程序交易与手动交易的博弈,靠技术还是靠运气

备受争议的话题,很多人认为程序化交易是在破坏市场的平衡,大量的程序交易订单可能会造成市场价格的异常波动,尤其是在高频交易未被监管时,程序化交易者占尽优势,来回收割。 而支持程序交易的人认为,市场是…

redis 高可用及哨兵模式 @by_TWJ

目录 1. 高可用2. redis 哨兵模式3. 图文的方式让我们读懂这几个算法3.1. Raft算法 - 图文3.2. Paxos算法 - 图文3.3. 区别: 1. 高可用 在 Redis 中,实现 高可用 的技术主要包括 持久化、复制、哨兵 和 集群,下面简单说明它们的作用&#xf…

vscode怎么点击路径直接跳转对应文件

在vue项目中经常要引入工具类、组件、模版等,想要直接去看对应文件,只能自己找到对应路径再去打开。 我们可用在js项目中创建一个 jsconfig.json文件,TS项目可以创建tsconfig.json 文件代码 {"compilerOptions": {"baseUrl&…

Ubuntu16.04 opencv环境搭建(C++)

Ubuntu下vscode跑opencv程序环境搭建。 目录 1 ubuntu查看opencv版本 2 下载opencv包 3 依赖配置 4 进入安装包内执行 5 配置环境变量 6 VScode配置-下载c扩展 7 编译运行helloworld 8 在vscode中配置opencv环境 9 运行结果 1 ubuntu查看opencv版本 pkg-config --mo…

根据模板和git commit自动生成日·周·月·季报

GitHub - qiaotaizi/dailyreport: 日报生成器 GitHub - yurencloud/daily: 程序员专用的日报、周报、月报、季报自动生成器! config.json: { "Author": "gitname", "Exclude": ["update:", "add:", "…

Flink实现实时异常登陆监控(两秒内多次登陆失败进行异常行为标记)

Flink实现异常登陆监控(两秒内多次登陆失败进行异常行为标记) 在大数据处理领域,Apache Flink 是一个流行的开源流处理框架,能够高效处理实时数据流。在这篇博客中,我们将展示如何使用 Apache Flink 从 MySQL 中读取数…

LIO-EKF: 运行数据UrbanNav与mid360设备详细教程

一、代码连接 代码下载连接: YibinWu/LIO-EKF: Maybe the simplest LiDAR-inertial odometry that one can have. (github.com) 编译步骤: cd srcgit clone gitgithub.com:YibinWu/LIO-EKF.gitcatkin_makesource devel/setup.bash 运行步骤: …

opencv进阶 ——(八)图像处理之RMBG模型AI抠图

BRIA.AI团队于HuggingFace开源了一个基于ISNet背景移除模型RMBG-1.4,它可以有效对前景与背景进行分离。RMBG-1.4在精心构建的数据集上训练而来,该数据包含常规图像、电商、游戏以及广告内容,该方案达到了商业级性能,但仅限于非商业…

React-组件通信

组件通信 概念:组件通信就是组件之间的数据传递,根据组件嵌套关系的不同,有不同的通信方法 父传子 基础实现 实现步骤: 1.父组件传递数据-在子组件标签上绑定属性 2.子组件接收数据-子组件通过props参数接收数据 props说明 1.…

AI科技,赋能企业财务管理

AI技术已深入千行百业,其实际任务解决能力愈发凸显和强劲。正如乔布斯所强调“技术不是为工程师而生,而是为应用而生”。 胜意科技深度集成业内领先技术,将AI融入到实际的财务工作流中,与OCR、RPA等智能技术组合式输出&#xff0c…

面试后总没回音,要去问面试结果吗?

知识星球(星球名:芯片制造与封测技术社区,星球号:63559049)里的学员问:面试一家公司的PIE,这家公司各方面我都很满意,但是面试后到现在都一周了,也没回音,要微…

@Value 读取环境变量配置

在项目开发过程中,有必要使用一些灰色规则(即仅用于开发使用过程中的逻辑控制变量)。 比如,本地开发中,一些业务逻辑需要调用第三方代码,但又在本地调不通,怎么办。只能通过 if(本地开发) {mock…

Facebook的创新实验室:人工智能与新技术探索

Facebook作为全球领先的社交媒体平台之一,一直在不断探索和应用最新的技术来改善用户体验、推动创新和拓展业务边界。其创新实验室更是探索人工智能(AI)和新技术的前沿,为未来的社交媒体发展开辟了新的可能性。本文将深入探讨Face…

《广告数据定量分析》第3版读书笔记之统计原理

1.点估计与区间估计:可用于求指标误差区间;(不常用) (1)总体比例的置信区间: 通过样本数据计算的比例,估计总体的对应比例的取值范围。主要适用于用户转化漏斗各环节的转化率估计,比如点击率、点击下载率、下载安装率、安装激活率等。 我们可以得到总体百分比的一个…