国产大模型速度测评,第一名竟然是它。。。

news2024/11/13 1:05:19

原文首发:国产大模型速度测评,第一名竟然是它。。。经过一段时间调研,我选择了一些国内比较知名的大模型进行速度测评,按照模型参数量及API调用价格,分为了三个档次,分别对应经济型、高性价比型、旗舰型。icon-default.png?t=N7T8https://mp.weixin.qq.com/s?__biz=MzU1MjgyOTA5NQ==&mid=2247484928&idx=1&sn=e71886d2efb49e79116db99340dbc608&chksm=fbfd6fc8cc8ae6de614c1bbd5707c3a7b77f2c65557e401e69038b0c4e25d06687f8e426edcb&token=1414993605&lang=zh_CN#rd

前段时间OpenAI封禁国内调用API的事情,大伙都知道了吧?老美在芯片领域卡我们脖子,还想在人工智能领域继续卡我们脖子,简直欺人太甚!好在国产大模型比较争气,性能方面已经逐渐追赶上ChatGPT4了。

作为一个开发者,必须要支持国产大模型一波,所以最近在针对国产大模型做调研测试,尝试替换为国产大模型。对我来说,只关心一个核心点——性价比!通俗点来说,就是“既要好用”、“又要便宜”、“还要速度快”。

图片

由于OpenAI API已经几乎成为全球的事实性标准,国产大模型基本都对OpenAI API做了兼容,再叠加前段时间的百模大战以及抢占OpenAI用户,API调用价格变得非常便宜了,所以核心测试点是模型回答速度测试。

参赛选手

经过一段时间调研,我选择了一些国内比较知名的大模型进行速度测评,按照模型参数量及API调用价格,分为了三个档次,分别对应经济型、高性价比型、旗舰型。

经济型

本次参与测评的选手有:

  • 来自智谱的glm-4-Flash

  • 来自讯飞星火的general

  • 来自月之暗面的moonshot-v1-8k

  • 来自阶跃星辰的step-1-8k

  • 来自百度千帆的ERNIE-Speed-8K

高性价比型

本次参与测评的选手有:

  • 来自智谱的glm-4-airx

  • 来自通义千问的qwen-7b-chat

  • 来自讯飞星火的generalv3

  • 来自月之暗面的moonshot-v1-32k

  • 来自阶跃星辰的step-1-32k

旗舰型

本次参与测评的选手有:

  • 来自智谱的glm-4-0520

  • 来自通义千问的qwen-turbo

  • 来自讯飞星火的generalv3.5

  • 来自月之暗面的moonshot-v1-128k

  • 来自深度求索的deepseek-chat

  • 来自阶跃星辰的step-1-128k

在看具体测评结果之前,做个小调查,你认为哪些选手会表现优异呢?

评测方法

挑选不同类型的问题,整理成评测问题集,采集相关指标来对比模型的回答速度。

为了避免单次测试结果的偶然性,分别对每个模型多次进行提问,取平均值。

计算公式:回答速度 = 每次回答token数汇总 / 总耗时

模型速度对比

我挑选了问答型、推理型和翻译型这三类问题,然后随机选了一个问题对每个模型进行多次提问,由于模型回答结果太长,回答的内容就不贴出来了,整体的测试结果如下。

类型1:问答型

我的预算是一万元而且喜欢打游戏,我该买什么样的电脑呢?

经济型

图片

前三名分别是 glm-4-Flash、general、step-1-8k,其中 glm-4-Flash 表现亮眼。

高性价比型

图片

前三名分别是 glm-4-arix、qwen-7b-chat、step-1-32k。

旗舰型

图片

前三名分别是 qwen-turbo、glm-4-0520、step-1-128k。

类型2:推理型

答非所问就是回答;敬而远之就是不喜欢;沉默不语就是拒绝;冷战就是不怕失去;闪烁不定就是撒谎。有的事情没必要追问,因为你慢慢会发现,所有的细节都是答案。而你只是不想接受罢了。这是正方辩手描述的观点,如果你是反方辩手,该如何回答?

经济型

图片

前三名分别是 glm-4-Flash、general、step-1-8k。

高性价比型

图片

前三名分别是 glm-4-airx、qwen-7b-chat、step-1-32k。

旗舰型

图片

前三名分别是 glm-4-0520、step-1-128k、qwen-turbo。

类型3:翻译型

床前明月光,疑是地上霜。举头望明月,低头思故乡。把这首诗翻译成英文。

经济型

图片

前三名分别是 glm-4-Flash、general、step-1-8K。

高性价比型

图片

前三名分别是 glm-4-airx、qwen-7b-chat、moonshot-v1-32k。

旗舰型

图片

前三名分别是 glm-4-0520、qwen-turbo、moonshot-v1-128k。

评测结果

这个测评结果打破了我的固有观念,总结如下:

  • 经济型:glm-4-Flash 表现亮眼,稳居第一名

  • 高性价比型:glm-4-airx 表现亮眼,稳居第一名,qwen-7b-chat表现不错

  • 旗舰型:qwen-turbo、glm-4-0520 表现不错,稳居前三名

如果你追求经济实惠型,glm-4-Flash 是个不错的选择;如果你追求高性价比的话,glm-4-airx 和 qwen-7b-chat 是个不错的选择;如果你追求质量,qwen-turbo、glm-4-0520 都可以考虑。

总结

我个人比较追求性价比,所以打算使用 glm-4-airx 了。原因有以下几点:

  • 好用:智谱的GLM系列大模型全面对标OpenAI产品体系,可以对ChatGPT无缝替换,其他厂商都是做的兼容,代码需要额外处理

  • 便宜:10元/百万tokens,还提供不设上限的Token赠送计划及专属搬家服务

  • 速度快:在高性价比型测评中,稳居第一

glm-4-airx使用案例

glm-4-airx 推理过程耗时相对同类模型更少,可能是智谱有针对性做优化。为了让大家直观的感受,我在文章最后放三个glm-4-airx的使用案例。

案例1:数值比较

先来个最近比较经典的模型翻车问题,glm-4-airx 回答正确,逻辑条理清晰。

9.11和9.9哪个更大

glm-4-airx(输出174个token,耗时1.46秒)

在比较两个小数 9.11 和 9.9 的时候,首先比较它们的整数部分,都是 9,所以整数部分相同。
接下来比较小数部分,首先看十分位,9.11 的十分位是 1,而 9.9 的十分位是 9。由于 9.9 的十分位大于 9.11 的十分位,所以不需要再比较后面的位数。
因此,9.9 更大。

案例2:写代码

让模型写代码的问题也来一个,glm-4-airx 提供的代码非常简洁。

以123为随机种子,随机生成10个介于1(含)到999(含)之间的随机数,每个随机数后跟随一个逗号进行分隔,屏幕输出这10个随机数。

glm-4-airx(输出113个token,耗时1.29秒)

```pythonimport random
# 设置随机数种子random.seed(123)
# 生成10个随机数并输出random_numbers = [random.randint(1, 999) for _ in range(10)]print(','.join(str(num) for num in random_numbers) + ',')```

案例3:解读古诗词

再看看模型对古诗词理解能力,glm-4-airx 的回答也很不错。

窗前明月光,疑是地下霜。举头望明月,低头思故乡。解读这首诗

glm-4-airx(输出219个token,耗时3.05秒)

这首诗是唐代诗人李白的名作《静夜思》。以下是这首诗的解读:
诗的开头“窗前明月光,疑是地上霜”描绘了作者夜晚在窗前,看到明亮的月光照进屋内,地面上的月光反射出如霜般的光芒,给人一种清冷寂静的感觉。
“举头望明月”表达了诗人抬头仰望天空中的明月,月亮的明亮和圆满常常引起人们的感慨和联想。
最后一句“低头思故乡”,诗人在欣赏月色的同时,内心涌起了对故乡的思念之情。低头这个动作,既可以理解为诗人因为思念故乡而感到心情沉重,也可以理解为诗人在月光下沉思。
整首诗通过简洁的语言,将诗人夜晚独处时的心境和对故乡的深深思念表达得淋漓尽致。这首诗体现了诗人对自然美景的细腻感受以及浓郁的乡愁情感,是中国古典诗歌中表达乡愁情感的经典之作。


我是无界生长,关注我,带你一起玩转AI!如果你觉得我分享的内容对你有帮助,麻烦点赞、分享、在看,你的支持是我创作的最大动力!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1934794.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Django】网上蛋糕商城后台-商品管理

1.商品管理功能 当管理员点击商品管理时,发送服务器请求 path(admin/goods_list/, viewsAdmin.goods_list), # 处理商品列表请求 def goods_list(request):try:type request.GET["type"]except:type 0try:ym request.GET["ym"]except:ym …

【视频讲解】神经网络、Lasso回归、线性回归、随机森林、ARIMA股票价格时间序列预测|附代码数据

全文链接:https://tecdat.cn/?p37019 分析师:Haopeng Li 随着我国股票市场规模的不断扩大、制度的不断完善,它在金融市场中也成为了越来越不可或缺的一部分。 【视频讲解】神经网络、Lasso回归、线性回归、随机森林、ARIMA股票价格时间序列…

Haproy服务

目录 一.haproxy介绍 1.主要特点和功能 2.haproxy 调度算法 3.haproxy 与nginx 和lvs的区别 二.安装 haproxy 服务 1. yum安装 2.第三方rpm 安装 3.编译安装haproxy 三.配置文件详解 1.官方地址配置文件官方帮助文档 2.HAProxy 的配置文件haproxy.cfg由两大部分组成&…

【MQTT(3)】开发一个客户端,QT-Android安卓手机版本

手机版本更加方便 生成安卓库 参考了这个代码 在编译Mosquitto以支持安卓平台时,主要涉及到使用Android NDK(Native Development Kit)进行交叉编译。环境的准备参考之前的博客【QT开发(17)】2023-QT 5.14.2实现Andr…

jenkins添加ssh证书

1、生成ssh密匙:windows生成ssh密匙-CSDN博客 2、添加添加ssh凭证:jenkins路由地址为:/manage/credentials/store/system/domain/_/ 点击添加凭证 选择第二个,将生成的私匙 id_rsa 里边的内容赋值到密钥,id留空自动…

使用小波分析实现文字种类自动识别

文章目录 数据简介开始实验小波分解得出结果结果分析误差分析 数据简介 各找一篇中文,日文,韩文,英文,俄文较长的学术论文。将论文转化为JPG格式。拆分每张JPG生成更多小的JPG。最终获得很多5个不同语言的JPG并且自带标签。数据链…

网安速查引擎(厂商设备大全)

速查引擎 斯元的速查引擎以其全面、精准的信息整合和便捷的搜索功能,大大缩短了用户查找相关厂商和产品信息的时间,从而提高了工作效率和决策质量。用户可以轻松查阅到各个赛道中的领先厂商和最新技术,帮助企业快速找到适合的合作伙伴和解决方…

逆向案例二十五——webpack所需模块函数很多,某翼云登录参数逆向。

解决步骤: 网址:aHR0cHM6Ly9tLmN0eXVuLmNuL3dhcC9tYWluL2F1dGgvbG9naW4 不说废话,密码有加密,直接搜索找到疑似加密位置打上断点。 再控制台打印,分析加密函数 有三个处理过程,b[g]得到的是用户名,b[f] 对…

HiFi-GAN——基于 GAN 的声码器,能在单 GPU 上生成 22 KHz 音频

拟议的 HiFiGAN 可从中间表征生成原始波形 源码地址:https://github.com/NVIDIA/DeepLearningExamples 论文地址:https://arxiv.org/pdf/2010.05646.pdf 研究要点包括 **挑战:**基于 GAN 的语音波形生成方法在质量上不及自回归模型和基于流…

Linux部署Prometheus+Grafana

【Linux】PrometheusGrafana 一、Prometheus(普罗米修斯)1、Prometheus简述2、Prometheus特点3、Prometheus生态组件4、Prometheus工作原理 二、部署Prometheus1、系统架构2、部署Prometheus3、修改配置文件4、配置系统启动文件 三、部署 Node Exporter …

Spring MVC-什么是Spring MVC?

T04BF 👋专栏: 算法|JAVA|MySQL|C语言 🫵 今天你敲代码了吗 文章目录 1.MVC定义2. Spring MVC 官方对于Spring Web MVC的描述这样的: Spring Web MVC is the original web framework built on the Servlet APl and has been includedin the Spring Frame…

P1-AI产品经理--九五小庞

产品经理的定位 AI基于现有业务挖掘AI应用场景,服务提供商选择及算法定制等,配合已有产品完成整体产品工工资基于从事医疗行业的考虑,我们走的应该是AI产品经理(软件型) AI产品经理(行业型) AI…

JavaEE:Lombok工具包的使用以及EditStarter插件的安装

Lombok是一个Java工具库&#xff0c;通过添加注解的方式&#xff0c;简化Java的开发。 目录 1、引入依赖 2、使用 3、原理解释 4、更多使用 5、更快捷的引入依赖 1、引入依赖 <dependency><groupId>org.projectlombok</groupId><artifactId>lomb…

STM32全栈嵌入式人脸识别考勤系统:融合OpenCV、Qt和SQLite的解决方案

1. 项目概述 本项目旨在设计并实现一个基于STM32的全栈人脸识别考勤系统。该系统结合了嵌入式开发、计算机视觉和数据库技术&#xff0c;实现了自动人脸检测、识别和考勤记录功能。 主要特点: 使用STM32F4系列微控制器作为主控制器采用OpenCV进行人脸检测和识别Qt开发跨平台…

高性能、安全、低碳绿色的趋势下,锐捷网络发布三擎云办公解决方案 3.0

桌面虚拟化作为云时代的主流和热门技术&#xff0c;已经取得了广泛应用。随着生成式 AI 爆炸式发展&#xff0c;CSDN 看到&#xff0c;人工智能正在引发计算、开发、交互三大范式的全面升级&#xff0c;技术开发或将迎来一次全新的科技变革周期&#xff0c;因此 VDI 云桌面随之…

亚马逊自发货erp,虚拟自动化发货功能以及1688订单采购

亚马逊自发货erp自动化功能&#xff0c;自动同步订单&#xff0c;1688订单同步。 大家好&#xff0c;今天分享一个非常实用并且节省时间的功能&#xff1a;自动化发货以及1688同步订单。 首先来看下自动化发货功能怎么操作。 →要在商品信息里面添加商品信息&#xff0c;上传…

C#语法基础详解(万字总结)

文章目录 **参考书籍&#xff1a;C#7.0 核心技术指南**类型类字段解构器对象初始化器属性表达式属性(只读属性才可以)自动属性属性初始化器 索引器静态构造器nameof运算符 继承类型转换和引用转换as运算符is运算符is与模式变量 虚函数成员抽象类和抽象成员new和重写base关键字构…

JavaDS —— 二叉树

树的基本概念 树是一种非线性的数据结构&#xff0c;它是由n&#xff08;n>0&#xff09;个有限结点组成一个具有层次关系的集合。把它叫做树是因为它看 起来像一棵倒挂的树&#xff0c;也就是说它是根朝上&#xff0c;而叶朝下的。 树形结构中&#xff0c;子树之间不能有…

网易滑块逆向

版本 2.27.2 混淆难度挺大 没反混淆 直接硬着直接干 参数还是那些 滑块&#xff08;其他类型也一样&#xff09;成功率 100%

= null 和 is null;SQL中关于NULL处理的4个陷阱;三值逻辑

一、概述 1、NULL参与的所有的比较和算术运算符(>,,<,<>,<,>,,-,*,/) 结果为unknown&#xff1b; 2、unknown的逻辑运算(AND、OR、NOT&#xff09;遵循三值运算的真值表&#xff1b; 3、如果运算结果直接返回用户&#xff0c;使用NULL来标识unknown 4、如…