阿里Qwen2-72B大模型已是开源榜的王者,为什么还要推出其他参数模型,被其他模型打榜?

news2024/12/24 1:43:04

6 月 27 日,全球知名的开源平台 Hugging Face 的联合创始人兼首席执行官 Clem 在社交平台激动宣布,阿里 Qwen2-72B 成为了开源模型排行榜的王者。

Clem社交平台消息

这是一件大好事,说明了我们在大模型领域从先前的追赶,逐渐走向了领导,未来完全有可能会引领着全球开源模型的发展潮流,这是我们的骄傲!

不过话说回来,Qwen2 序列有 5 个参数版本,分别是 Qwen2-0.5BQwen2-1.5BQwen2-7BQwen2-57B-A14BQwen2-72B。本次排行榜第一的是 Qwen2-72B 参数版本,那么其他参数版本的评测结果如何呢?老牛同学查看了 Qwen2 的官方文档,有一些比较评测:https://qwenlm.github.io/zh/blog/qwen2/

Qwen2-72B 如 Clem 宣布一样,包括自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的模型:

Qwen2-72B评测结果

Qwen2-7B 模型在自然语言理解数学 方面均有点落后了:

Qwen2-7B评测结果

其他参数版本没有评测结果,老牛同学猜测是其他大模型没有对等的参数版本,因此无法进行比较,或者不相上下,也就没有必要把结果放出来了。

老牛同学的疑问

那么老牛同学的问题来了:阿里 Qwen2-72B 大模型已是开源榜的王者,为什么还要推出其他参数模型,被其他模型打榜?

老牛同学带着这个问题咨询了几位同事,也问了Qwen2-7B大模型,他们的回答均有一定道理,但老牛同学猜测,Qwen 这么做的核心目的只有一个:丰富 Qwen 大模型生态

原因一: 训练 Qwen 中小尺寸参数成本并不高】

以阿里人才储备、基础设施和高层 All in AI 的决心和投入,训练 Qwen 中小参数版本的模型应该不是什么难事,顺手即可做的事情,相对来说成本并不高

原因二: 快速进行迭代和模型参数优化演进】

通过快速发布多个尺寸的模型,可以让内外部的技术究人员分析和探索模型的参数规模与性能之间的关系,以便能找到最佳的平衡点,最终不断推动优化和演进 Qwen 系列大模型

原因三: 构建和丰富 Qwen 大模型全场景生态】

老牛同学认为这是最为关键的一点,开源不是目的、打榜争第一也应该不是目的,它们都只是构建并丰富生态的策略!老牛同学和大家一起来回顾 2 件事情:

Windows XP 生态: 我们还记得二零零几年的时候,满大街 Windows XP 的盗版操作系统吗?操作系统激活竟然也可以是路边打印小店的一大业务。那么,盗版这么多,微软为什么不管管?是他不知道吗,还是根本管不了?老牛同学觉得都不是,应该是微软故意放任不管:微软要赚的是企业的钱,包括 IT 公司、电脑厂商等,个人的钱不太好赚;同时,使用 Windows 操作系统的个人越多,会带动 Windows 生态发展(使用技巧和攻略、研发各种各样的软件等),进而能拉动更多使用的个人,同时对于企业来说意味着熟练的工人也越多,企业为降低成本,自然就愿意采购 Windows 正版授权,最终还是微软赚钱了!

阿里云 OS 生态: 老牛同学在二零一几年的时候看到过一张图片,图片展示的是当时的阿里 CTO 王坚博士在报告台上擦眼泪。传说是王坚博士在给一群高管做汇报,汇报内容是阿里云和手机操作系统(云 OS)。云计算在当时的中国没有任何一家企业有布局,但王坚博士坚信云计算和云 OS 的未来,他作为第一个吃螃蟹的人,在技术研发和基础设施等方面的投入成本都非常巨大,受到了一些高管和投资人的质疑,因此他边做着汇报边流着委屈的流泪。辛亏当时马老师力排众议,支持王坚博士的想法,如今阿里云在国内技术或市场上称第二,应该没有其他云能自信的称第一了。

反观 云 OS 我们几乎感知不到了,很大一个原因是 没有生态:云 OS 曾经和国内的一些手机厂商合作推出过一些手机品牌(如 小辣椒大黄蜂等),和比较大的厂商 宏基 的合作新闻发布会,后者也因 Google Android 的压力不得不放弃合作。Google 对云 OS 抄袭 Android 的 API 代码的状告一直不断。老牛同时当时咨询过一位负责云 OS 短信模块的技术同学,为什么云 OS 的 API 需要和 Android 保持一致,是技术能力不够吗?技术同学告诉老牛同学,操作系统都能研发出来,API 并没有什么技术难度,但是如果 API 不能和 Android 保持一致,那么已有的 Android APP 将无法接入,所以必须要兼容保持一致,否则没有了 Android 的生态,操作系统要推广就难于登天了。

如今,云 OS 虽然没有成为手机操作系统,但它却在车载(斑马网络)、智能家居(电视、天猫精灵等)等 OS 中大放异彩。

而 Qwen 系列大模型的 Qwen2-0.5BQwen2-1.5B可在智能家居推理;Qwen2-7B可用于个人、小团队等部署推理,个人业务不断发展,就可能购买云服务器部署,小团队业务进一步发展,也完全有可能购买 Qwen 推理服务,最终形成完美的闭环(感觉和Windows XP有那么一点点类似)。

最后:纯属老牛同学个人观点,请慎喷

以上观点纯属老牛同学个人的猜测,若有不合理之处,欢迎留言讨论,若有冒犯之处,请联系老牛同学删除此文,非常感谢!


关注本公众号,我们共同学习交流进步 👇🏻👇🏻👇🏻

微信公众号:老牛同学

开源大模型

本地部署 GLM-4-9B 清华智谱开源大模型方法和对话效果体验

Phi-3 模型手机部署教程(微软发布的可与 GPT-3.5 媲美的小模型)

Qwen2 阿里最强开源大模型(Qwen2-7B)本地部署、API 调用和 WebUI 对话机器人

玩转 AI,笔记本电脑安装属于自己的 Llama 3 8B 大模型和对话客户端

一文彻底整明白,基于 Ollama 工具的 LLM 大语言模型 Web 可视化对话机器人部署指南

基于 Llama 3 搭建中文版(Llama3-Chinese-Chat)大模型对话聊天机器人

Google 发布了最新的开源大模型 Gemma 2,本地快速部署和体验

ChatTTS 文本转语音模型

ChatTTS 开源文本转语音模型本地部署、API 使用和搭建 WebUI 界面

Stable Diffusion 3 文生图模型

Stable Diffusion 3 文生图“开源英雄”大模型本地部署和使用教程,轻松实现 AI 绘图自由

大模型应用实战

使用 Llama3/Qwen2 等开源大模型,部署团队私有化 Code Copilot 和使用教程

大模型应用研发基础环境配置(Miniconda、Python、Jupyter Lab、Ollama 等)

借助 AI 大模型,三分钟原创一部儿童故事短视频(附完整操作步骤)

高效编写大模型 Prompt 提示词,解锁 AI 无限创意潜能

Python 小游戏

AI 已来,我与 AI 一起用 Python 编写了一个消消乐小游戏

Python 游戏编程:一步步用 Python 打造经典贪吃蛇小游戏


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1894512.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【 VIPKID-注册安全分析报告】

前言 由于网站注册入口容易被黑客攻击,存在如下安全问题: 暴力破解密码,造成用户信息泄露短信盗刷的安全问题,影响业务及导致用户投诉带来经济损失,尤其是后付费客户,风险巨大,造成亏损无底洞 …

Redis 7.x 系列【17】四种持久化策略

有道无术,术尚可求,有术无道,止于术。 本系列Redis 版本 7.2.5 源码地址:https://gitee.com/pearl-organization/study-redis-demo 文章目录 1. 概述2. 案例演示2.1 无持久化2.2 RDB2.3 AOF2.4 混合模式2.4.1 方式一:…

初学Spring之自动装配 Bean

Bean 的作用域: 1.单例模式(Spring 默认机制) scope“singleton” 2.原型模式:每次从容器中 get 时,都会产生一个新对象 scope"prototype" 3. request、session、application,只能在 web 开…

不可变集合

目录 1.1 什么是不可变集合 1.2 不可变集合分类 1.3 不可变的list集合:list of 1.4 不可变的Set集合:set.of 1.5 不可变的Map集合 1.5.1:键值对个数小于等于10 1.5.2:键值对个数大于10 Map.ofEntries方法: copy…

JBoss JMXInvokerServlet 反序列化漏洞

漏洞原理: 这是经典的JBoss反序列化漏洞,JBoss在/invoker/JMXInvokerServlet请求中读取了用户传入的对象,然后我们利用Apache Commons Collections中的Gadget执行任意代码。 影响版本: JBoss Enterprise Application Platform 6…

如视“VR+AI”实力闪耀2024世界人工智能大会

7月4日,2024世界人工智能大会暨人工智能全球治理高级别会议(以下简称为“WAIC 2024”)在上海盛大开幕,本届大会由外交部、国家发展和改革委员会、教育部等部门共同主办,围绕“以共商促共享 以善治促善智”主题&#xf…

【虚拟机】虚拟机网络无法访问问题【已解决】

【虚拟机】虚拟机无法上网问题【已解决】 问题探究解决方法法1:查看相关“网络服务”是否处于正常启动状态法2:重启网络法3:重新安装VMWare法4:使用NAT模式,每次打开win7都没连上网的解决办法 问题探究 安装了很多个虚…

昇思MindSpore学习总结八——静态图加速

AI编译框架分为两种运行模式,分别是动态图模式以及静态图模式。MindSpore默认情况下是以动态图模式运行,但也支持手工切换为静态图模式。两种运行模式的详细介绍如下: 1、动态图模式 动态图的特点是计算图的构建和计算同时发生(D…

vue模板语法v-html

模板语法v-html vue使用一种基于HTML的模板语法,使我们能够声明式的将其组件实例的数据绑定到呈现的DOM上,所有的vue模板都是语法层面的HTML,可以被符合规范的浏览器和HTML解释器解析。 一.文本插值 最基本的数据绑定形式是文本插值&#…

高二的他已通过NOI保送北大了,让我们一起了解他的信息学奥赛学习经历吧!!!

相信关注本号的各位,对于信息学奥赛已经不陌生了,部分同学也已经开始踏入信息学的旅程,但前路茫茫,让我们一起看看已经取得成就的同学的经历吧。 今天要介绍的这位同学,是来自深圳中学的高二某班的欧阳达晟同学&#x…

一、强化学习基本概念

一、强化学习基本概念 1.1 何为强化学习?1.2 强化学习的环境1.3 强化学习的目标1.4 强化学习的数据 1.1 何为强化学习? 强化学习(Reinforcement Learning, RL)是机器通过与环境交互来实现目标的一种计算方法。机器和环境的一轮交互是指:机器在…

Spring AI之后,阿里推出Spring Cloud Alibaba AI,接入体验篇——Java也能方便用 AI

阿里推出Spring Cloud Alibaba AI,接入体验篇——Java也能方便用 AI 1.Spring AI2.Spring Cloud Alibaba AI3. 接入体验 1.Spring AI Spring AI 是 Spring 官方社区项目,旨在简化 Java AI 应用程序开发,让 Java 开发者像使用 Spring 开发普通…

安装Anaconda找不到旧版本怎么办?

标题Anaconda官网:https://www.anaconda.com/ 对于个人学习使用,不用下载最新版本,使用之前的版本相对还是比较稳定的。所以需要寻找旧版网址。 标题旧版网址:https://repo.anaconda.com/archive/ 里面多种版本选择 然后选择自…

解决前端登录成功之后,往后端发请求携带cookie问题

项目背景: 今天在做伙伴匹配系统: 我现在实现的功能是: 在我登录成功之后,就进入了主页(默认页),在我访问用户页的时候产生的问题 首先说明一下这个Cookie的问题: 我们登录成功…

Django 定义模型执行迁移

1,创建应用 Test/app8 python manage.py startapp app8 2,注册应用 Test/Test/settings.py 3,配置路由 Test/Test/urls.py from django.contrib import admin from django.urls import path, includeurlpatterns [path(app8/, include(a…

SCI一区TOP|徒步优化算法(HOA)原理及实现【免费获取Matlab代码】

目录 1.背景2.算法原理2.1算法思想2.2算法过程 3.结果展示4.参考文献5.代码获取 1.背景 2024年,SO Oladejo受到徒步旅行启发,提出了徒步优化算法(Hiking Optimization Algorithm, HOA)。 2.算法原理 2.1算法思想 HOA灵感来自于…

机器人控制系列教程之Delta机器人动力学分析

动力学简介 机器人动力学分析是已知各运动构件的尺寸参数和惯性参数的情况下,求解末端运动状态与主驱动力矩之间的函数关系。 意义:对并联机器人动力学分析的意义体现在: 为伺服电机的选型提供理论依据;获得动力学参数为目标函数的最优问题做性能评价指标;为高精度控制提…

windows@资源管理器中的地址栏@访问共享文件夹的各种方法@管理共享文件夹

文章目录 资源管理器中的地址栏可以访问什么访问共享文件夹👺UNC路径资源管理器打开共享文件夹纯命令行方式访问共享文件夹 共享文件夹相关操作查看所有已经共享的文件夹👺停止某个文件的共享 共享文件夹的访问控制补充匿名访问问题😊强制启用…

VSCode 自动调整格式失效了 ESLint

ESLint【最新注意2.4.4版本有问题,需退回2.4.2版本就恢复正常了】 参考:vscode自动格式化失效_vscode保存自动格式化失效-CSDN博客

C++内存管理(候捷)第一讲 笔记

内存分配的每一层面 applications可以调用STL,里面会有allocator进行内存分配;也可以使用C 基本工具primitives,比如new, new[], new(), ::operator new();还可以使用更底层的malloc和free分配和释放内存。最底层的是系统调用&…