测评各主流大模型对复杂文档处理的精确度,司马阅领先

news2024/12/23 13:41:44

司马阅一直在升级,这次升级后,我们将司马阅和主流的AI大模型再做一次测评。这次极端测评,主要pk各大模型对复杂文档处理的精确度。

我们选取的依然是这份专业的行业报告:《中国生成式AI开发者洞察》,共58页,信息量很大、数据复杂,几乎每一页都有图表,且数据具有隐秘性和迷惑性。

f434242a52f461b0edbb128260d3cf81.jpeg

我们准备了3个问题,现在开测!

第1个问题:“生成式AI开发者职位中,哪三类最多,用表格呈现出来。”

我们先来问司马阅,司马阅快速理解并回答:资深研发人员占比34.6%,初级研发人员占比14.5%,技术总监占比12.2%。

我们看看原文档,的确是这三类职位,且数据一一对应,回答准确无误。

2f132aa25b6cd0e8fb12703072267f3e.jpeg

再来看豆包怎么回答,豆包回答的职位是:初级研发人员、资深研发人员、产品经理,职业与原文件不符,且把初级研发人员和资深研发人员的占比数据搞反了。

3b495d4dc2dbe3c3fe912a97d3a4eb9e.jpeg

接着问通义千问,通义千问给出的职位是算法工程师、产品经理、大模型开发,三个职位全错,对应的数据自然也是错误的。

d7ce871703031ae3e0462b35549294fe.jpeg

接着我们问Kimi,Kimi的回答是初级研发人员、产品经理、算法工程师,与原文件的前三类职业有差别,且读取的数据也是全错。

79df1a74e90324c5a56e46baa6c0f21f.jpeg

接下来问的是腾讯元宝,腾讯元宝回答对了资深研发人员和初级研发人员,前两类的数据也是正确的,但是它给出的第三类职位是产品经理,而原文中是技术总监,结果不完全正确。

89a0f1eb66a537cdca64f9c82b49819f.jpeg

接着我们问文心一言,文心一言给的占比数据是对的,但是三个职位全部对应错误,所以结果不准确。

6469fdac02613eb3913e2c820efd26b6.jpeg

接下来我们来问ChatGPT,ChatGPT给出的回答是算法工程师、产品经理、自然语言处理,职位和占比全错。

61246e51f45da9451e4d2ca4430a34cb.jpeg

第1个问题测试完毕,接着进行第二轮测试。

第2个问题:“数字人和机器人在生成式AI开发者研究方向中分别占比是多少?”

首先来看司马阅是怎么回答的,数字人和机器人的占比分别是4.7%和4.0%,看看原文,回答准确。

96502a2660448673cc6aaa2e66ec0d2a.jpeg

接着来问豆包,豆包给出的答案是9.1%和6.7%,两个数据均错误。

ec090bc5ce07efb874a440cb16ba9c7c.jpeg

接着我们来问通义千问,通义千问回答的占比都是4.0%,只回答对了机器人的占比。

89364f7256478f2af8f138e6d8cefba6.jpeg

接着我们问Kimi,Kimi的回答是数字人占比4.7%,机器人占比2.0%,只回答对了数字人的占比。

2324c0002bc17651e238a13d33d8e9a5.jpeg

再看看腾讯元宝,腾讯元宝无法回答。

f815b272386ae1cfd2c42871739a48b2.jpeg

接着我们问文心一言,文心一言同样无法回答这个问题。

2f80207d66cc1de75ba07b748bcc693e.jpeg

接下来我们来问ChatGPT,ChatGPT给出的回答是数字人占比6.0%,机器人占比4.0%,只回答对了机器人的占比。

d1091c61d8295937840a9ac38dd72b4b.jpeg

第3个问题:“百川大模型和360智脑在开发者使用频率中分别占比”

来看看司马阅的回答,司马阅给出的答案是百川大模型的使用占比为4.0%,360智脑的使用占比为1.5%,原文也是这两个数据,回答正确。

40ac8623cdf48d7dc82a7634c0e0ff08.jpeg

再来看豆包怎么回答,豆包的回答是0.5%和1.9%,两个数据均和原文对不上。

f8b548dae95418b3d531633dc527a514.jpeg

接着问通义千问,通义千问无法给出百川大模型和360智脑在开发者使用频率中的占比。

5266cfd124538742bd54c29ae6494766.jpeg

接着我们问Kimi,Kimi的回答是百川大模型占比1.2%,360智脑占比1.3%,与原文差别较大。

aa4335d492e2e3bdcae5192e36ee0bad.jpeg

接下来问的是腾讯元宝,腾讯元宝无法找到相关内容,提取信息失败。

2a6ef7a374278f788dde281827e61347.jpeg

接着我们问文心一言,文心一言说了很多,但同样无法直接给出占比。

be9f3ecbae9409071d8bc9e2225358e5.jpeg

接下来我们来问ChatGPT,ChatGPT给出的占比分别是4.0%和3.2%,百川大模型的使用占比回答正确,360智脑的使用占比错误。

b3453b26aaef6266baa1038e99118134.jpeg

3个问题测评下来,司马阅在对复杂文档处理的精确度上仍然具有领先的优势,这得益于DocMind文档智能大模型

DocMind是司马阅自研文档智能大模型,基于Transformer结构,融合深度学习、自然语言处理(NLP)和计算机视觉(CV)等技术的文档理解预训练模型,DocMind能够处理富文本文档中的复杂结构和视觉信息,提高信息抽取的准确性。

经过DocMind处理过的文档,然后通过大语言模型进行自然语言交互,相当于DocMind为大语言模型提供了更有价值的语料,最终回答精准度和实用性更高,也更适用于严肃商业应用场景。

司马阅使用链接:https://smartread.cc/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2041285.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

js实现图片以鼠标为中心滚轮缩放-vue

功能背景 实现以鼠标在图中的位置为中心进行图片的滚轮缩放,现在是无论鼠标位置在哪都以图片中心进行缩放,这不符合预期; 关键点 缩放前鼠标在的位置是 A(clinetX,clientY) 点,缩放后鼠标的位置是 A’&a…

遇到 aspects 依赖引入失败问题

在引入 aspects 的相关依赖时&#xff0c;没有找到这个版本 <dependency><groupId>org.springframework</groupId><artifactId>spring-aspects</artifactId><version>6.0.0-M2</version> </dependency> 第一次尝试&#xff…

中国云计算技术(三)

目录 四、云视频监控技术&#xff08;一&#xff09;cVideo云视频监控系统&#xff08;二&#xff09;cVideo智能分析系统&#xff08;三&#xff09;cVideo云转码系统 四、云视频监控技术 随着云计算技术的飞速发展&#xff0c;许多传统行业纷纷向“云”上靠拢&#xff0c;视频…

【日记】朋友和他女朋友领证了(368 字)

正文 一定程度上感受到了驻场运维的水深火热&#xff0c;感觉成天到晚都在救火。今天下午就给人修了四五台机器…… 回想了一下&#xff0c;今天貌似还真没干什么。毕竟早上睁眼就是 8:35 了&#xff0c;给人吓得半死。 &#xff08;感觉 AI 也很智障&#xff0c;当初就是发现音…

0603定时器的输入捕获

定时器的输入捕获 最终程序现象&#xff1a; 1.输入捕获模式测频率 2.PWMI模式&#xff08;PWM输入模式&#xff09;测频率和占空比 输入捕获电路&#xff1a;左边这一部分。 右边的就是输出比较部分。 4个输入捕获和输出比较通道&#xff0c;共用4个CCR寄存器&#xff0c;另外…

uniapp 自定义全局弹窗

自定义全局弹窗可在js和.vue文件中调用&#xff0c;unipop样式不满足&#xff0c;需自定义样式。 效果图 目录结构 index.vue <template><view class"uni-popup" v-if"isShow"><view class"uni-popup__mask uni-center ani uni-cust…

10款企业网络准入控制系统排行榜|网络准入控制系统推荐

在当今数字化时代&#xff0c;企业网络的安全性对于维护业务连续性和保护敏感数据至关重要。网络准入控制系统&#xff08;NAC&#xff09;作为企业安全架构的核心组成部分&#xff0c;负责管理和控制所有试图接入企业网络的设备。我们列出了2024年企业网络准入控制系统的排行榜…

别急着买新手机:OPPO Reno13系列配置全解析,性价比爆表

在智能手机市场&#xff0c;OPPO Reno系列凭借其高性价比和出色的影像实力&#xff0c;一直是消费者关注的焦点。 随着科技的不断进步&#xff0c;OPPO也在不断推陈出新&#xff0c;满足用户对高性能手机的需求。最近&#xff0c;OPPO Reno13系列的曝光&#xff0c;预示着OPPO…

【高性能高易用】物联网AI开发套件----Qualcomm® RB3 Gen 2 开发套件

Qualcomm RB3 Gen 2 开发套件 专为高性能计算、高易用性而设计的物联网开发套件 Qualcomm RB3 Gen 2 开发套件拥有先进的功能和强大的性能&#xff0c;包括强大的AI运算&#xff0c;12 TOPS 算力和计算机图形处理能力&#xff0c;可轻松创造涵盖机器人、企业、工业和自动化等…

谷歌账号登录的时候提示被停用,原因是什么,账号还有救吗?该如何处理?

今日早上&#xff0c;有个久违的朋友找到我说&#xff0c;要恢复账号。 他的情况是这样的&#xff1a;7月21日的时候&#xff0c;他发现自己的谷歌账号登录的时候提示活动异常先&#xff0c;需要输入手机号码验证才能恢复账号。但是输入了自己和亲友们的多个手机号码都无法验证…

Astro + Cloudflare Pages 快速搭建个人博客

目录 1 选择 Astro 模板2 使用代码3 修改代码4 上传 Github5 部署 Cloudflare Pages6 后续修改 最近我搭建完了我的个人网站&#xff0c;很多人问是怎么做的&#xff0c;今天就来写一篇教程吧。 全部干货&#xff0c;看完绝对能成功搭建自己的网站&#xff01;&#xff08;还不…

8月12号笔记

工作组 工作组对计算机进行分层&#xff0c;通过创建不同的工作组&#xff0c;不同的计算机可以按照功能或部门归属到不同的组内&#xff0c;整个组织的网络就会变得具有层次性。在默认情况下&#xff0c;局域网内的计算机都是采用工作组方式进行资源管理的&#xff0c;即处在…

S71200 - 编程 - 笔记

1 DEMO 1.1气阀控制 1.2 红绿灯 基于PLC红绿灯控制_哔哩哔哩_bilibili 2 介绍变量DB&#xff0c;M&#xff0c;I&#xff0c;Q的使用 在PLC编程中&#xff0c;通常会使用多种类型的变量来实现逻辑控制、数据存储和输入输出操作。以下是常见的PLC变量类型及其用途&#xff…

C++笔记3•类和对象2•

1.类的6个默认成员函数 概念: 默认成员函数是用户没有显式实现,编译器会生成的成员函数称为默认成员函数。其中包括 构造函数、析构函数、拷贝构造、赋值重载、普通对象取地址重载、const对象取地址重载。也就是说类在空的情况下,空类中也不是什么也没有,会包含这六个默认成…

Linux shell脚本实战案例

文章目录 1. 基础案例&#xff1a;显示系统信息2. 文件备份案例3. 自动安装软件案例4. 批量重命名文件案例5. 监控磁盘空间案例6. 定时任务案例&#xff1a;定期清理日志文件7. 错误处理和日志记录案例&#xff1a;安全地运行命令8. 备份数据库案例&#xff1a;定期备份MySQL数…

Waterfox vG6.0.8 官方版下载及安装步骤(一款响应速度非常快的浏览器)

前言 Waterfox 水狐浏览器&#xff0c;从字面上我们可以轻松的了解该款浏览器的一些特点。Waterfox是通过Mozilla官方认证的纯64位版火狐浏览器&#xff0c;而Waterfox 10采用Firefox 10官方源码编译而成&#xff0c;改进了大内存和64位计算的细节&#xff0c;在64位Windows系…

haproxy整理

haproxy 1.1 haproxy简介 HAProxy是法国开发者 威利塔罗(Willy Tarreau) 在2000年使用C语言开发的一个开源软件 是一款具备高并发(万级以上)、高性能的TCP和HTTP负载均衡器&#xff0c;支持基于cookie的持久性&#xff0c;自动故障切换&#xff0c;支持正则表达式及web状态统…

Linux10 三剑客 正则表达式

三剑客 grep 擅长过滤&#xff0c;按行过滤 首先要把多个虚拟机的网络改成一种形式 爆破攻击&#xff1a;‌爆破攻击是一种尝试通过穷举法&#xff08;即尝试所有可能的组合&#xff09;来破解密码或身份验证的方法。这种攻击通常用于尝试登录到系统、网络或应用程序&#…

《系统架构设计师教程(第2版)》第14章-云原生架构设计理论与实践-04-云原生架构案例分析(二)云原生技术助力某汽车公司数字化转型实践

文章目录 1. 背景和挑战2. 基于云原生架构的解决方案3. 应用效益 1. 背景和挑战 汽车行业正迅速步入数字化时代。车企服务的对象发生变化&#xff0c;从购车市场转为覆盖后车市场的全周期&#xff0c;通过互联网渠道直面客户&#xff0c;服务客户急速增多。为适配客户快速变化…

【面试题】N皇后

N皇后 仅供学习 一、问题描述 n 皇后问题是一个经典的组合问题&#xff0c;可以通过回溯算法来解决。 二、python代码 def solve_n_queens(n):def can_place(row, col):# 检查这一行之前是否有列可以放置皇后for i in range(row):if board[i] col or abs(board[i] - col) …