【MiniCPM-V】win10本地部署OCR等性能测试

news2024/9/19 9:56:28

性能尝试

本地配置如下

+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 546.80                 Driver Version: 546.80       CUDA Version: 12.3     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                     TCC/WDDM  | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA GeForce RTX 3080 ...  WDDM  | 00000000:01:00.0 Off |                  N/A |
| N/A   52C    P0              43W / 140W |      0MiB / 16384MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+

+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|  No running processes found                                                           |
+---------------------------------------------------------------------------------------+

1. Response time latency(普遍推理时间在1-2min内不等)

2. OCR理解能力,找图片试一下,多模态图片

3. 作为llm的语义理解能力


案例一:柱状图

在这里插入图片描述

案例二:中文发票 -> json格式

请添加图片描述

{
“发票类型”: “上海市服务业、娱、贸文化体育统一发票”,
“发票号码”: “23100127006108438658”,
“开票日期”: “2012/10/11”,
“供应商信息”: {
“名称”: “上海师范学校专科附属小学”,
“税务登记号”: “3101011325090797”
},
“购买方信息”: {
“名称”: “上海市保安服务总公司黄浦区”,
“税务登记号”: “3101011325090798”
},
“项目信息”: {
“项目名称”: “项目服务”,
“项目单价”: “700.00”,
“数量”: “6”,
“金额”: “4200.00”,
“税率”: “6%”,
“税额”: “126.00”,
“合计”: “4200.00”
},
“其他信息”: {
“税款登记号”: “3101011325090799”,
“收款人姓名”: “余周”,
“付款人姓名”: “李明”
}
}

案例三:英文机票 -> json格式

在这里插入图片描述

{
“title”: “E-Boarding Pass”,
“notice”: “You may proceed directly to the boarding gate using this e-boarding pass. You can download and share this e-boarding pass with other guests in your booking.”,
“airlines”: [
{
“logo”: “AirAsia”,(难)
“destination”: “Macao International Airport”,(错)(缺少出发地)
“flight_no”: “FD 776”,
“date”: “14 Mar 2024”,
“time”: “10:10”
}
],
“booking_details”: {
“flight_no”: “FD 776”,
“departure_date”: “14 Mar 2024”,
“departure_time”: “10:10”,
“seat”: “19E”,
“sequence”: “8”
},
“qr_code”: “包含在条形码和二维码内的信息”,
“status”: “ASA”
}

案例四:ppt -> 根据这个图片写一段演讲稿

请添加图片描述

尊敬的各位来宾,今天我非常荣幸能够在这里与大家分享我们的内容赋能解决方案。随着信息化时代的到来,我们面临着如何充分利用数据资源来推动业务发展的挑战。在这个过程中,基于非结构化数据的分析和管理显得尤为重要。
我们深入研究了现有的企业业务系统,并针对其中的关键业务系统进行了优化。OA、ERP等系统通过内容采集的方式,将文档的文本和内容转换成可供分析的形式,从而实现对业务数据的精准理解和决策支持。
此外,我们还专注于内容处理服务的流程自动化和业务数据贯通,为企业提供了更高效的工作流程和数据共享能力。而在内容分析数据这一核心环节,我们采用了先进的数据分析技术,挖掘出隐藏在海量数据背后的宝贵信息。
为了更好地管理和运营这些内容,我们建立了内容管理体系架构,包括图谱标签、内容总线和内容数据湖等模块。这不仅有助于组织和检索内容,还能提高内容的价值和利用率。
最后,我们还提供了电子档案管理、合同管理、SAP智能内容管理等功能,以满足不同行业和业务需求的个性化服务。
总结来说,我们的内容赋能解决方案旨在帮助企业将非结构化数据转化为有价值的业务资产,提升业务效率和竞争力。感谢大家的聆听。

案例五:食物链描述(有几个动物错误,但人也难以辨认,基本正确)

请添加图片描述

<User>: 用语言描述这个食物链
<Assistant>: 这个食物链展示了一个典型的草原生态系统,包括草、树木、各种草食动物和捕食者。草是食物链的基础,为像长颈鹿、斑马、羚羊等动物提供营养。这些动物被描绘为不同的种类,它们通过吃草或其他植物来维持生命。食草动物之间存在竞争关系,但也可以共存,因为每个物种有自己偏好的植被类型。
<User>: 描述每一个动物之间的关系
<Assistant>: 根据食物链的图表,狮子是食肉动物,猎杀斑马和长颈鹿以获取食物。豹子也捕食猎物,包括猎鸟和羚羊。野猪可能会吃植物或其他小动物,而狗可能会捕食小型哺乳动物或食用人类提供的食物。鸟类,如鹰,可能捕食小型哺乳动物或其他鸟类。狐狸可能捕食小型哺乳动物或觅食垃圾。鼠兔可能被猫科动物如豹子和狗捕食,而大象是草食性动物,主要以树叶为食。草原和森林环境中存在的树木为食草动物提供了必要的植被。总体而言,这个图表展示了各种生物之间的相互依存关系,其中每个生物都在其生态系统内扮演着特定的角色。

案例六:复杂结构描述

在这里插入图片描述

这张图展示了非结构化数据AI洞察发展的路径,按照场景和内容级别的复杂性进行分类。图表的左侧是通用图谱、行业图谱和行业词库等类型的非结构化数据,而右侧则展示了从基础的基于元数据的核心资产管理到更高级别的智能标签、智能定密、文字OCR、物体识别、人像识别等技术应用的层次。图表的上部包含了自主探索式搜索、场景下的知识推荐、基于元数据的核心资产管理以及内容级别结构化分析等功能。图表的下部聚焦在具体的应用场景,如AI引擎、主题趋势预测、安全洞察等。整体上,这个图表提供了一种视觉化的方式来理解和规划在不同领域中如何有效地利用和管理非结构化数据。

扇形结构应该是识别不出来,是我要求太高了

案例七:复杂表格请添加图片描述

尝试搜索功能,所在行一般是对的,列感觉有点瞎蒙
尝试转markdown

Description2023 m$2022 $m2021 $m2020 $m2019 $m
Net interest income35,79630,37726,48927,57830,462
Net fee income11,84511,77013,09711,87412,023
Net income from financial instruments held for trading or managed on a fair value basis16,66110,2787,7449,58210,231
Net income/(expense) from assets and liabilities of insurance businesses, including related derivatives, measured at fair value through profit or loss7,887(4,053)3,0812,4783,479
Net insurance premium income(7,809)10,87010,09310,636-
Insurance finance (expense)/income(1,078)13,799---
Insurance service result1,581809---
Gain on acquisition(1,141)(266)1,6871,8664,194
Total operating income66,05850,62063,94064,07171,024
Net income before operating expenses and other charges(14,388)----
Net income before income taxes66,05850,62049,55250,42956,098
Net income before credit impairment charges(3,447)(3,584)(928)(8,176)(7,756)
Net operating income62,61151,48040,51234,64133,544
Total operating expenses excluding impairment of goodwill and other intangible assets(32,355)(32,887)(33,044)(34,955)(37,394)
Impairment of goodwill and other intangible assets285(147)(733)(1,388)(7,394)
Operating profit30,54115,4407,1807,16015,993
Share of profit in associates and joint ventures2,8072,7233,0462,5971,354
Impairment of interest in associate(3,000)----
Profit before tax30,34817,90818,9068,77713,347
Tax expense(5,789)(14,693)(2,678)(4,639)(8,709)
Profit for the year24,55914,69913,0966,7088,099
Attributable to:
- Ordinary

在这里插入图片描述
结果一般,有很多错的,而且没有识别完就结束了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1702997.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

设计模式17——模板方法模式

写文章的初心主要是用来帮助自己快速的回忆这个模式该怎么用&#xff0c;主要是下面的UML图可以起到大作用&#xff0c;在你学习过一遍以后可能会遗忘&#xff0c;忘记了不要紧&#xff0c;只要看一眼UML图就能想起来了。同时也请大家多多指教。 模板方法模式&#xff08;Temp…

Java面试八股之自旋是什么意思

Java中的自旋是什么意思 自旋是多线程编程中的一种同步机制&#xff0c;尤其在Java中与锁的实现密切相关。当一个线程尝试获取某个锁&#xff08;如内置锁或显式锁&#xff09;时&#xff0c;如果锁已被其他线程持有&#xff0c;通常的做法是将该线程置于阻塞状态&#xff0c;…

知识融合概述

文章目录 知识融合知识融合过程研究现状技术发展趋势 知识融合 知识融合的概念最早出现在1983年发表的文献中&#xff0c;并在20世纪九十年代得到研究者的广泛关注。而另一种知识融合的定义是指对来自多源的不同概念、上下文和不同表达等信息进行融合的过程认为知识融合的目标是…

02 FreeRTOS 任务

1、创建任务函数 1.1 动态内存的使用 在之前我们如果要创建一个与学生有关的任务&#xff0c;我们会定义&#xff1a; //打印50个学生的信息 char name[50][100]; int age[50]; int sex[50]; //1表示男&#xff0c;0表示女 int score[50]; 如果之后要对其进行修改会非常麻烦&…

java面对对象编程-多态

介绍 方法的多态 多态是在继承&#xff0c;重载&#xff0c;重写的基础上实现的 我们可以看看这个代码 package b;public class main_ {public static void main(String[] args) { // graduate granew graduate(); // gra.cry();//这个时候&#xff0c;子类的cry方法就重写…

[Java EE] 网络编程与通信原理(三):网络编程Socket套接字(TCP协议)

&#x1f338;个人主页:https://blog.csdn.net/2301_80050796?spm1000.2115.3001.5343 &#x1f3f5;️热门专栏:&#x1f355; Collection与数据结构 (92平均质量分)https://blog.csdn.net/2301_80050796/category_12621348.html?spm1001.2014.3001.5482 &#x1f9c0;Java …

第36届世界超级小姐大赛安徽赛区正式启动

5月26日,在现场几百位出席仪式的社会名流、时尚界大咖、文化旅游机构负责人和前沿品牌代表以及现场嘉宾的共同见证下&#xff0c;第36届世界超级小姐大赛安徽赛区活动的神秘面纱终于在安徽黄山悠悠湖文化中心正式揭开。伴随着高亢激情的现代音乐&#xff0c;长发飘逸、身形灵动…

“AURORA-M:首个遵循人类审查安全指令微调的开源多语言模型

在人工智能领域&#xff0c;多模态学习是一个日益增长的研究领域&#xff0c;它涉及将来自不同源&#xff08;如图像、文本、音频等&#xff09;的信息结合起来。但高昂的训练计算成本限制了模型的普及性&#xff0c;使得小型机构和个人难以负担。而且现有模型在多语言能力上受…

结算协同,打通企业上下游业、财、票、资

市场变革&#xff0c;转型当先 随着电子发票的普及与数字化浪潮的涌动&#xff0c;企业正面临着前所未有的转型挑战。如何在快速变化的市场中站稳脚跟&#xff0c;提升竞争力&#xff1f;答案在于数字化转型&#xff0c;特别是供应链结算流程的革新。 无纸化、自动化&#xff0…

数字孪生为什么这么火?水务离不开它的原因又是什么?

数字孪生利用可视化技术结合视频融合、BIM、5G、物联网、云计算和大数据等先进技术&#xff0c;围绕实现水质达标、安全生产、高效节能等生产、运营和管理目标。它构建了一个三维场景&#xff0c;涵盖自来水厂区的建筑、生产设备、管线等设施&#xff0c;以实现对水厂实时运行信…

分享目前堪称最好用的车机桌面app,支持画中画模式!

好用的车机桌面了&#xff0c;支持悬浮画中画&#xff01; 如果你想改变单调的车机桌面&#xff0c;那么这篇文章你不要错过了&#xff01;支持地图悬浮、画中画的车机桌面&#xff0c;不要错过&#xff01; 今天阿星给大家分享3款好用、好看的大屏桌面软件&#xff0c;重要的…

Python数据分析常用函数

Python基础 数字处理函数 Python提供了用于数字处理的内置函数和内置模块(math)&#xff0c;使用内置模块&#xff0c;需要先导入 import math。 内置函数math模块abs(-5)返回绝对值math.ceil(2.3)返回不小于x的最小整数divmod(9,4)返回商和余数math.floor(2.3)返回不大于x的…

Unity OutLine 模型外描边效果

效果展示&#xff1a; 下载链接

十四天学会Vue——Vue核心(理论+实战)中篇(第二天)

声明&#xff1a;是接着上篇讲的哦&#xff0c;感兴趣可以去看一看~ 这里一些代码就不写了&#xff0c;为了缩减代码量&#xff0c;大家知道就可以了&#xff1a; Vue.config.productionTip false //阻止 vue 在启动时生成生产提示。热身小tips&#xff0c;可以安装这个插件&…

记一次重定向问题(浏览器安全)解决

近期做单点登陆功能&#xff0c;本身应该是一个很简单的功能&#xff0c;却发生了意向不到的问题…让我们看下&#xff1a; 首先第三方给出的地址需要通过JWT框架获取token拼接后跳转&#xff0c;我这边为了方便首选肯定是考虑用response.sendRedirect(url)&#xff0c;但是做好…

源代码防泄漏方案需要具备哪些因素?

首选选择加密软件对公司来说是一项关键决策&#xff0c;需要细致考虑多个因素。 选择合适的加密软件&#xff1a;关键因素与推荐方案 一、稳定性&#xff1a;加密软件的核心 稳定性是评估加密软件的首要因素。一个不稳定的加密软件可能导致数据损坏或系统冲突&#xff0c;影响…

【机器学习】机器学习在信息安全领域中的典型应用

&#x1f680;&#x1f680;&#x1f680;传送门 &#x1f512;机器学习在信息安全领域中的典型应用&#x1f4d5;利用机器学习检测恶意行为并阻断攻击&#x1f308;使用机器学习分析移动终端安全状况⭐借助机器学习提高信息安全分析水平&#x1f3ac;依靠机器学习自动完成重复…

“按摩”科技?

都说A股股民是特别善于学习的&#xff0c;这不市场又现新概念——“按摩科技”&#xff0c;成立仅6年&#xff0c;把上门按摩干到35亿营收也是没谁了&#xff0c;现在号称有1000万用户&#xff0c;3万家入驻商户数的按摩平台&#xff0c;难道就凭借2.5万名女技师&#xff0c;活…

【YOLO 系列】基于YOLO V8的学生上课行为检测系统【python源码+Pyqt5界面+数据集+训练代码】

前言 在现代教育环境中&#xff0c;学生上课行为的监测对于提升教学质量和学生学习效率具有重要意义。然而&#xff0c;传统的人工观察方法不仅效率低下&#xff0c;而且难以保证客观性和准确性。为了解决这一问题&#xff0c;我们启动了这个项目&#xff0c;目的是利用YOLOV8…

【LeetCode算法】第83题:删除排序链表中的重复元素

目录 一、题目描述 二、初次解答 三、官方解法 四、总结 一、题目描述 二、初次解答 1. 思路&#xff1a;双指针法&#xff0c;只需遍历一遍。使用low指向前面的元素&#xff0c;high用于查找low后面与low不同内容的节点。将具有不同内容的节点链接在low后面&#xff0c;实…