测评各主流大模型对复杂文档处理的精确度，司马阅领先

测评各主流大模型对复杂文档处理的精确度，司马阅领先

news2026/2/15 6:50:44

司马阅一直在升级，这次升级后，我们将司马阅和主流的AI大模型再做一次测评。这次极端测评，主要pk各大模型对复杂文档处理的精确度。

我们选取的依然是这份专业的行业报告：《中国生成式AI开发者洞察》，共58页，信息量很大、数据复杂，几乎每一页都有图表，且数据具有隐秘性和迷惑性。

我们准备了3个问题，现在开测！

第1个问题：“生成式AI开发者职位中，哪三类最多，用表格呈现出来。”

我们先来问司马阅，司马阅快速理解并回答：资深研发人员占比34.6%，初级研发人员占比14.5%，技术总监占比12.2%。

我们看看原文档，的确是这三类职位，且数据一一对应，回答准确无误。

再来看豆包怎么回答，豆包回答的职位是：初级研发人员、资深研发人员、产品经理，职业与原文件不符，且把初级研发人员和资深研发人员的占比数据搞反了。

接着问通义千问，通义千问给出的职位是算法工程师、产品经理、大模型开发，三个职位全错，对应的数据自然也是错误的。

接着我们问Kimi，Kimi的回答是初级研发人员、产品经理、算法工程师，与原文件的前三类职业有差别，且读取的数据也是全错。

接下来问的是腾讯元宝，腾讯元宝回答对了资深研发人员和初级研发人员，前两类的数据也是正确的，但是它给出的第三类职位是产品经理，而原文中是技术总监，结果不完全正确。

接着我们问文心一言，文心一言给的占比数据是对的，但是三个职位全部对应错误，所以结果不准确。

接下来我们来问ChatGPT,ChatGPT给出的回答是算法工程师、产品经理、自然语言处理，职位和占比全错。

第1个问题测试完毕，接着进行第二轮测试。

第2个问题：“数字人和机器人在生成式AI开发者研究方向中分别占比是多少？”

首先来看司马阅是怎么回答的，数字人和机器人的占比分别是4.7%和4.0%，看看原文，回答准确。

接着来问豆包，豆包给出的答案是9.1%和6.7%，两个数据均错误。

接着我们来问通义千问，通义千问回答的占比都是4.0%，只回答对了机器人的占比。

接着我们问Kimi，Kimi的回答是数字人占比4.7%，机器人占比2.0%，只回答对了数字人的占比。

再看看腾讯元宝，腾讯元宝无法回答。

接着我们问文心一言，文心一言同样无法回答这个问题。

接下来我们来问ChatGPT,ChatGPT给出的回答是数字人占比6.0%，机器人占比4.0%，只回答对了机器人的占比。

第3个问题：“百川大模型和360智脑在开发者使用频率中分别占比”

来看看司马阅的回答，司马阅给出的答案是百川大模型的使用占比为4.0%，360智脑的使用占比为1.5%，原文也是这两个数据，回答正确。

再来看豆包怎么回答，豆包的回答是0.5%和1.9%，两个数据均和原文对不上。

接着问通义千问，通义千问无法给出百川大模型和360智脑在开发者使用频率中的占比。

接着我们问Kimi，Kimi的回答是百川大模型占比1.2%，360智脑占比1.3%，与原文差别较大。

接下来问的是腾讯元宝，腾讯元宝无法找到相关内容，提取信息失败。

接着我们问文心一言，文心一言说了很多，但同样无法直接给出占比。

接下来我们来问ChatGPT,ChatGPT给出的占比分别是4.0%和3.2%,百川大模型的使用占比回答正确，360智脑的使用占比错误。

3个问题测评下来，司马阅在对复杂文档处理的精确度上仍然具有领先的优势，这得益于DocMind文档智能大模型。

DocMind是司马阅自研文档智能大模型，基于Transformer结构，融合深度学习、自然语言处理(NLP)和计算机视觉(CV)等技术的文档理解预训练模型，DocMind能够处理富文本文档中的复杂结构和视觉信息，提高信息抽取的准确性。

经过DocMind处理过的文档，然后通过大语言模型进行自然语言交互，相当于DocMind为大语言模型提供了更有价值的语料，最终回答精准度和实用性更高，也更适用于严肃商业应用场景。

司马阅使用链接：https://smartread.cc/

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2041285.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

js实现图片以鼠标为中心滚轮缩放-vue

js实现图片以鼠标为中心滚轮缩放-vue

功能背景实现以鼠标在图中的位置为中心进行图片的滚轮缩放，现在是无论鼠标位置在哪都以图片中心进行缩放，这不符合预期； 关键点缩放前鼠标在的位置是 A（clinetX,clientY） 点，缩放后鼠标的位置是 A’&a…

阅读更多...

遇到 aspects 依赖引入失败问题

遇到 aspects 依赖引入失败问题

在引入 aspects 的相关依赖时，没有找到这个版本 <dependency><groupId>org.springframework</groupId><artifactId>spring-aspects</artifactId><version>6.0.0-M2</version> </dependency> 第一次尝试&#xff…

阅读更多...

中国云计算技术（三）

中国云计算技术（三）

目录四、云视频监控技术（一）cVideo云视频监控系统（二）cVideo智能分析系统（三）cVideo云转码系统四、云视频监控技术随着云计算技术的飞速发展，许多传统行业纷纷向“云”上靠拢，视频…

阅读更多...

【日记】朋友和他女朋友领证了（368 字）

【日记】朋友和他女朋友领证了（368 字）

正文一定程度上感受到了驻场运维的水深火热，感觉成天到晚都在救火。今天下午就给人修了四五台机器…… 回想了一下，今天貌似还真没干什么。毕竟早上睁眼就是 8:35 了，给人吓得半死。 （感觉 AI 也很智障，当初就是发现音…

阅读更多...

0603定时器的输入捕获

0603定时器的输入捕获

定时器的输入捕获最终程序现象： 1.输入捕获模式测频率 2.PWMI模式（PWM输入模式）测频率和占空比输入捕获电路：左边这一部分。右边的就是输出比较部分。 4个输入捕获和输出比较通道，共用4个CCR寄存器，另外…

阅读更多...

uniapp 自定义全局弹窗

uniapp 自定义全局弹窗

自定义全局弹窗可在js和.vue文件中调用，unipop样式不满足，需自定义样式。效果图目录结构 index.vue <template><view class"uni-popup" v-if"isShow"><view class"uni-popup__mask uni-center ani uni-cust…

阅读更多...

10款企业网络准入控制系统排行榜｜网络准入控制系统推荐

10款企业网络准入控制系统排行榜｜网络准入控制系统推荐

在当今数字化时代，企业网络的安全性对于维护业务连续性和保护敏感数据至关重要。网络准入控制系统（NAC）作为企业安全架构的核心组成部分，负责管理和控制所有试图接入企业网络的设备。我们列出了2024年企业网络准入控制系统的排行榜…

阅读更多...

别急着买新手机：OPPO Reno13系列配置全解析，性价比爆表

别急着买新手机：OPPO Reno13系列配置全解析，性价比爆表

在智能手机市场，OPPO Reno系列凭借其高性价比和出色的影像实力，一直是消费者关注的焦点。随着科技的不断进步，OPPO也在不断推陈出新，满足用户对高性能手机的需求。最近，OPPO Reno13系列的曝光，预示着OPPO…

阅读更多...

【高性能高易用】物联网AI开发套件----Qualcomm® RB3 Gen 2 开发套件

【高性能高易用】物联网AI开发套件----Qualcomm® RB3 Gen 2 开发套件

Qualcomm RB3 Gen 2 开发套件专为高性能计算、高易用性而设计的物联网开发套件 Qualcomm RB3 Gen 2 开发套件拥有先进的功能和强大的性能，包括强大的AI运算，12 TOPS 算力和计算机图形处理能力，可轻松创造涵盖机器人、企业、工业和自动化等…

阅读更多...

谷歌账号登录的时候提示被停用，原因是什么，账号还有救吗？该如何处理？

谷歌账号登录的时候提示被停用，原因是什么，账号还有救吗？该如何处理？

今日早上，有个久违的朋友找到我说，要恢复账号。他的情况是这样的：7月21日的时候，他发现自己的谷歌账号登录的时候提示活动异常先，需要输入手机号码验证才能恢复账号。但是输入了自己和亲友们的多个手机号码都无法验证…

阅读更多...

Astro + Cloudflare Pages 快速搭建个人博客

Astro + Cloudflare Pages 快速搭建个人博客

目录 1 选择 Astro 模板2 使用代码3 修改代码4 上传 Github5 部署 Cloudflare Pages6 后续修改最近我搭建完了我的个人网站，很多人问是怎么做的，今天就来写一篇教程吧。全部干货，看完绝对能成功搭建自己的网站！（还不…

阅读更多...

8月12号笔记

8月12号笔记

工作组工作组对计算机进行分层，通过创建不同的工作组，不同的计算机可以按照功能或部门归属到不同的组内，整个组织的网络就会变得具有层次性。在默认情况下，局域网内的计算机都是采用工作组方式进行资源管理的，即处在…

阅读更多...

S71200 - 编程 - 笔记

S71200 - 编程 - 笔记

1 DEMO 1.1气阀控制 1.2 红绿灯基于PLC红绿灯控制_哔哩哔哩_bilibili 2 介绍变量DB，M，I，Q的使用在PLC编程中，通常会使用多种类型的变量来实现逻辑控制、数据存储和输入输出操作。以下是常见的PLC变量类型及其用途&#xff…

阅读更多...

C++笔记3•类和对象2•

C++笔记3•类和对象2•

1.类的6个默认成员函数概念：默认成员函数是用户没有显式实现，编译器会生成的成员函数称为默认成员函数。其中包括构造函数、析构函数、拷贝构造、赋值重载、普通对象取地址重载、const对象取地址重载。也就是说类在空的情况下，空类中也不是什么也没有，会包含这六个默认成…

阅读更多...

Linux shell脚本实战案例

Linux shell脚本实战案例

文章目录 1. 基础案例：显示系统信息2. 文件备份案例3. 自动安装软件案例4. 批量重命名文件案例5. 监控磁盘空间案例6. 定时任务案例：定期清理日志文件7. 错误处理和日志记录案例：安全地运行命令8. 备份数据库案例：定期备份MySQL数…

阅读更多...

Waterfox vG6.0.8 官方版下载及安装步骤(一款响应速度非常快的浏览器)

Waterfox vG6.0.8 官方版下载及安装步骤(一款响应速度非常快的浏览器)

前言 Waterfox 水狐浏览器，从字面上我们可以轻松的了解该款浏览器的一些特点。Waterfox是通过Mozilla官方认证的纯64位版火狐浏览器，而Waterfox 10采用Firefox 10官方源码编译而成，改进了大内存和64位计算的细节，在64位Windows系…

阅读更多...

haproxy整理

haproxy整理

haproxy 1.1 haproxy简介 HAProxy是法国开发者威利塔罗(Willy Tarreau) 在2000年使用C语言开发的一个开源软件是一款具备高并发(万级以上)、高性能的TCP和HTTP负载均衡器，支持基于cookie的持久性，自动故障切换，支持正则表达式及web状态统…

阅读更多...

Linux10 三剑客正则表达式

Linux10 三剑客正则表达式

三剑客 grep 擅长过滤，按行过滤首先要把多个虚拟机的网络改成一种形式爆破攻击：‌爆破攻击是一种尝试通过穷举法（即尝试所有可能的组合）来破解密码或身份验证的方法。这种攻击通常用于尝试登录到系统、网络或应用程序&#…

阅读更多...

《系统架构设计师教程（第2版）》第14章-云原生架构设计理论与实践-04-云原生架构案例分析（二）云原生技术助力某汽车公司数字化转型实践

《系统架构设计师教程（第2版）》第14章-云原生架构设计理论与实践-04-云原生架构案例分析（二）云原生技术助力某汽车公司数字化转型实践

文章目录 1. 背景和挑战2. 基于云原生架构的解决方案3. 应用效益 1. 背景和挑战汽车行业正迅速步入数字化时代。车企服务的对象发生变化，从购车市场转为覆盖后车市场的全周期，通过互联网渠道直面客户，服务客户急速增多。为适配客户快速变化…

阅读更多...

【面试题】N皇后

【面试题】N皇后

N皇后仅供学习一、问题描述 n 皇后问题是一个经典的组合问题，可以通过回溯算法来解决。二、python代码 def solve_n_queens(n):def can_place(row, col):# 检查这一行之前是否有列可以放置皇后for i in range(row):if board[i] col or abs(board[i] - col) …

阅读更多...

推荐文章

最新文章