大模型,开源干不掉闭源

news2024/11/17 20:48:42

6e3161ad584806942309b9b4c862a5cb.jpeg

开源大模型对闭源大模型的冲击,变得非常猛烈。

今年3月,Meta发布了Llama(羊驼),很快成为AI社区内最强大的开源大模型,也是许多模型的基座模型。有人戏称,当前的大模型集群,就是一堆各种花色的“羊驼”。

而就在前些天,Meta又推出了免费可商用版本的“羊驼2号”——Llama2,据说性能比肩GPT-3.5。

477eca6a97f3ae71f99110b8389490ba.png

这在整个大模型圈都是非常炸裂的。

我们知道,各个互联网、科技公司都在竞相训练、推出自己的大模型,投入了大量的计算资源和成本,如果不能有效的完成商业化,那么这些大模型就很难回收成本,后续的迭代、更新、升级都成问题,不仅研发企业会亏个底掉,更苦恼的大概就是“前功尽弃”的用户了。

而现在有了自由开放强大的开源大模型,谁还愿意给闭源大模型送钱呢?

还真的有。

开源是大势所趋,但闭源大模型依然有其存在意义和商业价值。按照目前的AI产业落地经验来看,用好大模型,还是得靠闭源。

今天我们就来聊聊这个问题,到底是谁,需要闭源大模型?

到产业去,到产业去

251a5daa9161db54d110d773f682b270.png

大模型的商业化终点是产业,想必已经是不用过多解释的共识了。

前不久,我参加某一个国产大模型的内部沟通会,对方高层就明确表示,自己全部用的是闭源代码,并且坚持走闭源路线,就是考虑到训练大模型与行业伙伴合作,其中很多隐私数据是不方便开源的。

见一斑可窥全豹,至少在短期内,大模型走向产业,落地还是要靠闭源。

模型方面,闭源大模型的质量更高。

就拿目前最能打的Llama 2为例,Meta 将 Llama 2 70B 的结果,与闭源模型进行了比较,结果在 MMLU 和 GSM8K 上接近 GPT-3.5,但在编码基准上,还存在显著差距,不少数据在多样性和质量方面有所欠缺。

当然,开源大模型的优化迭代速度很快。但开源的本质和“有性繁殖”很像,就是通过大量繁殖和变异,如同开篇那张“羊驼集群”一样,面对不确定的未来,借助进化的“优胜劣汰”,让最优质的后代持续涌现。所以,开源软件的分支多,对用户来说,这个选择的成本是很高的,加上开发人员众多,版本控制是一个问题。

安全性方面,闭源大模型的可靠性更高。

开源大模型要遵守开源协议,商业使用需要获得授权,海外开源大模型也要受到属地管辖,github就曾封禁俄罗斯开发者账号。使用海外开源大模型开发产品,供应链的风险,是客观存在的。

那么,使用国产开源大模型呢?安全性得到保障,但从商业角度看,很多客户,如大型政企,也非常看重大模型在业务上的可靠性,采购时往往需要大公司的品牌背书。一方面研发投入更大,口碑更高;另一方面,万一大模型生成不当,导致商业损失或商誉问题,使用闭源大模型可以问责服务商,使用开源大模型总不能找全球开发者算账吧?

比如大模型创业公司Huging Face,为客户提供AI咨询,是开源社区的台柱子,表示有大量客户希望把自己的私有数据/专业数据用来训模型,并不想把这些数据给到 OpenAl。

3f563f08d8c38c09fd8aabdc3046ec6e.png

产业化方面,闭源大模型的长期服务能力更强、更可用。

大模型落地,并不是接入API、塞进数据、调参优化就结束了。作为一种新兴技术,大模型与业务场景的融合,还有非常多挑战。比如大模型需要通过蒸馏压缩,减小模型规模,才能在端侧部署,很多企业根本没有这类专业人才。

再比如,大模型与业务结合,需要产品、运营、测试工程师等多种角色共同参与,这些服务能力是以coder为主的开源团队,所很难提供的。此外,大模型的长期应用,算力、存储、网络等配套都要跟上,开源社区无法帮助用户“一站式”解决这些细节问题。

还有数据隐私顾虑,大模型是不能直接为产业所用的,还要通过专有场景数据进行优化,而这些数据训练完的模型会被开源开放出去,让企业顾虑重重。

我们曾采访过一个智慧医疗研发团队,对方表示,大量医疗数据分布在各大医院、研究机构,又涉及患者隐私,大家对于把数据拿出来共同训练一个行业模型,都存在顾虑。一方面是安全得不到保障,另一方面是自己的数据质量高,但从中得不到恰当的回报,和其他数据质量低的机构一样,很难协调。在开源大模型的共建中,如何得到数据、把握配方、确定各方贡献,还存在很多难题。

开源大模型需要平衡技术创新自由和版权收益之间的冲突,而使用闭源大模型就没有这方面的麻烦,数据和模型的所有权、使用权都很清晰,牢牢掌握在企业自己手里。

可以说,目前开源大模型还无法达到实际的业务需求。而开源大模型使用者和ISV集成商,是需要获得商业回报的,如果开源大模型不可商用、效果不好、很难赚钱,那么即使免费,企业也会慎重考虑要不要投入人来开发。

所以,未来一段时间,闭源依然是大模型落地产业的热门选择。

c6fddb31407d79b7b640b84f6a147b51.png

到群众去,到群众去

可能有人不理解了,开源免费商用,大家都能用上白菜价的大模型了,对开发者和企业用户多友好,你怎么还说闭源好?是不是为一门心思赚钱的大厂站台?

非也。

但凡了解开源,都会支持开源。但凡支持开源,都会关注开源的商业化。

中国科学院梅宏院士曾说过,开源以理想主义为源起,以商业化为蓬勃助力,是开放创新的典范。没有商业化,不可能有开源。

所以,开源也好,闭源也好,谁能更早“可商用”,谁就更有未来。这一点上,闭源大模型可能更占优势,毕竟有底气闭源的厂商,还是有两把刷子和研发家底儿的。

那么,开源大模型的优势在哪里呢?如果说闭源大模型要到产业去,那么开源大模型就要到群众中去,主打一个人多力量大。

dc11f479e57093738636c02b023173d9.png

(LeCun认为Llama-v2会改变LLM的市场格局)

开源大模型不同于传统开源软件,把源代码放上去,然后全球开发者来贡献代码就完了。大模型的协同共建,更多体现在社区繁荣,大家一起把模型做优化、数据做丰富、工具做完善、应用做全面……

这时候,开源模式能够带来几个好处:

1.技术创新。开源社区可以汇聚广大科技企业、研究机构和开发者,对模型进行优化、改进、加速迭代,让模型技术和配套数据集、应用工具等,变得丰富、高质,从而保持领先。

2.人才争夺。大模型作为新兴技术,人才紧缺,通过开源社区吸引全球优秀人才做贡献,加速大模型升级,能够拉开差距。有竞争才有压力,所以LLama 2发布之后,很快传出OpenAI也开始考虑半年内开源GPT-3.5的消息,开发者们有福了。

3.生态合拢。目前各行各业的IT解决方案和数字化转型,大量使用开源技术和应用,建设大模型开源生态,让IT人才和企业使用相关技术,对于后期的商业化非常有帮助。比如OpenAI 的合作伙伴/投资方微软,这次也选择成为Llama 2 的首要合作伙伴,支持个人开发者和中小公司以最低成本调用Llama 2,这对azure无疑是一大利好。

不是所有开源大模型都能成功,生态是关键的护城河。

夹心饼干,向何处去?

7b2f884bfea57d02b7de6f4d6cf002be.png

就像手机操作系统的 iOS 与 Andriod,开源与闭源的竞争,并不是某一个领域打的“你死我活”,而是各自走出一条差异化的道路,迎来自己的天地。大模型也是如此。

闭源大模型开门迎客,开源大模型红红火火,大家都有光明的未来。

既然如此,为什么还有专家认为,Llama 2开源对开源来说是一个巨大的飞跃,但对闭源的大模型公司是一个巨大打击?

究竟打击了谁?

答案应该是,既不甘心只做应用层、又没能力卷过大厂的基础大模型厂商。

谷歌研究人员曾发文说,因为有开源社区,我们(Google和OpenAI)没有护城河。但是,OpenAI还有GPT-4这样的闭源大模型作为杀手锏,只有被开源逼急了的情况下,才考虑把GPT-3.5开源,这里面是有技术代差的。而且GPT-3.5开源只透露了口风,具体进展还是未知数。

所以,这类头部科技厂商和云巨头,如海外的谷歌、OpenAI,国内的BATH,卡、钱、人才、数据、市场认知度、客户基础都有优势,走闭源路线来完成大模型商业化、产业化是有一定先发优势和壁垒的。

这就苦了那些一心想训基础通用大模型的二三线厂商了。

此前,全球大小科技公司和各类科研机构,一拥而上训基础大模型,比如某些机器视觉AI独角兽,不小心就成了基础层和应用层之间的“夹心饼干”。

实力上打不过GPT,成本上打不过Llama,训出来的基础通用大模型,还没等到正式开放商用,就已经过时了,注定是明日黄花。市场上拼不过巨头,开放度不如开源社区,几乎不可能收回高昂的开发成本。

趁早放弃死磕大模型,或许才是明智选择。

比如国内某AI公司的大模型,此前私有化报价是一年30万,随后就宣布对学术研究完全开放,获得授权可免费商用。做大模型开源社区,也有商业化的可能(如Linux/ Android/红帽),同时也能避免跟头部的通用大模型的“硬碰硬”。

9fdf009d6dc318a1f665ab1525071ca8.png

(知名投资人关于Llama2开源的讨论截图/来自网络)

对于应用层开发者和ISV集成商企业来说,用好产业接受度高的闭源大模型,可以更快让客户接受,更适合私有化定制部署的业务需求,更快完成商业落地和收入增长。

对于AI创业公司来说,开源直接就能用,避免重复造轮子,可能是更理想、低成本试错的商业化手段,“报团取暖”贡献大模型开源项目,推动大模型开源社区的发展,也会获得社区回馈和商业回馈。

中国大模型发展到高水平,既要有全球领先的闭源大模型打头阵,也要有具备世界影响力的大模型开源社区。

道阻且长,行则将至。不妨用建设性心态,来看待开源闭源之争,给国产闭源大模型一些信心,也给国內开源社区一些鼓励和支持。

e9316afc56a073e3e571ba39f3d8f2d9.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/789191.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

c++一级 输入三个数,按照从小到大的顺序输出

这个题是2022年9月份c一级的真题&#xff0c;它说难不难&#xff0c;说不难也难&#xff0c;评判标准主要看学生学到哪种程度以及 使用的是哪种方法。 首先来看用最基础的判断怎么做&#xff1a; #include<iostream> using namespace std; int main(){int a,b,c;cin>…

macOS Ventura 13.5 (22G74) 正式版发布,ISO、IPSW、PKG 下载

macOS Ventura 13.5 (22G74) 正式版发布&#xff0c;ISO、IPSW、PKG 下载 本站下载的 macOS Ventura 软件包&#xff0c;既可以拖拽到 Applications&#xff08;应用程序&#xff09;下直接安装&#xff0c;也可以制作启动 U 盘安装&#xff0c;或者在虚拟机中启动安装。另外也…

Cesium态势标绘专题-正三角形(标绘+编辑)

标绘专题介绍:态势标绘专题介绍_总要学点什么的博客-CSDN博客 入口文件:Cesium态势标绘专题-入口_总要学点什么的博客-CSDN博客 辅助文件:Cesium态势标绘专题-辅助文件_总要学点什么的博客-CSDN博客 本专题没有废话,只有代码,代码中涉及到的引入文件方法,从上面三个链…

Cesium态势标绘专题-弓形(标绘+编辑)

标绘专题介绍:态势标绘专题介绍_总要学点什么的博客-CSDN博客 入口文件:Cesium态势标绘专题-入口_总要学点什么的博客-CSDN博客 辅助文件:Cesium态势标绘专题-辅助文件_总要学点什么的博客-CSDN博客 本专题没有废话,只有代码,代码中涉及到的引入文件方法,从上面三个链…

opencv-17 脸部打码及解码

使用掩模和按位运算方式实现的对脸部打码、解码实例 代码如下&#xff1a; import cv2 import numpy as np #读取原始载体图像 lenacv2.imread("lena.png",0) #读取原始载体图像的 shape 值 r,clena.shape masknp.zeros((r,c),dtypenp.uint8) mask[220:400,250:350…

UE虚幻引擎教程_生成云平台指定路径下的exe文件

市面上大量优秀的游戏都是基于UE制作的&#xff0c;UE虚幻引擎制作的作品可以在windows、mac、linux以及ps4、x-boxone、ios、android甚至是html5等平台上运行。本文介绍了UE虚幻引擎如何生成云平台指定路径下的EXE。 一、云平台会运行打包文件夹下指定路径的EXE文件 但有时候…

spring6——概述

文章目录 概述Spring 是什么&#xff1f;Spring 的狭义与广义Spring Framework特点Spring模块组成 概述 Spring 是什么&#xff1f; Spring 是一款主流的 Java EE 轻量级开源框架 &#xff0c;Spring 由“Spring 之父”Rod Johnson 提出并创立&#xff0c;其目的是用于简化 J…

数据可视化(2)

1.柱状图 #柱状图 #bar(x,height,width,*,aligncenter,**kwargs) #height柱子的高度&#xff0c;即y轴上的数据 #width数组的宽度&#xff0c;默认值0.8 #*表示后面的参数为匿名关键字&#xff0c;必须传入参数 #kwargs关键字参数x[1,2,3,4,5] height[random.randint(10,100)f…

智融SW3518S降压协议IC一款适合车充控制芯片

描述 SW3518S 是一款高集成度的多快充协议双口充电芯片&#xff0c; 支持 AC 口任意口快充输出&#xff0c; 支持双口独立限流。 其集成了 5A 高效率同步降压变换器&#xff0c; 支持 PPS/PD/QC/AFC/FCP/SCP/PE/SFCP/VOOC等多种快充协议&#xff0c; 最大输出 PD 100W&#xff…

在 vue3 中使用 ScrollReveal

文章目录 什么是 ScrollReveal安装使用介绍 什么是 ScrollReveal ScrollReveal 官网链接&#xff1a;https://scrollrevealjs.org/ ScrollReveal 是一个 JavaScript 库&#xff0c;用于在元素进入/离开视口时轻松实现动画效果。 先看个入门示例&#xff1a; ScrollReveal …

mac brew安装 node 踩坑日记- n切换node不生效

最近用了一个旧电脑开发&#xff0c;发现里面node管理混乱&#xff0c;有nvm、n和homebrew&#xff0c;导致切换node 切换不了&#xff0c;开发也有莫名其妙的错误。所以我打算重新装一下node&#xff0c;使用n做为管理工具。 1. 删除nvm cd ~ rm -rf .nvm2. 删除n sudo rm -…

HarmonyOS/OpenHarmony元服务开发-创建一个ArkTS卡片

在已有的应用工程中&#xff0c;创建ArkTS卡片&#xff0c;具体操作方式如下。 1.创建卡片。 2.根据实际业务场景&#xff0c;选择一个卡片模板。 3.在选择卡片的开发语言类型&#xff08;Language&#xff09;时&#xff0c;选择ArkTS选项&#xff0c;然后单击“Finish”&…

【RS】基于规则的面向对象分类

ENVI使用最多的工具就是分类&#xff0c;这也是很多卫星影像的用途。在ENVI中有很多分类工具&#xff0c;如最基础的监督分类&#xff08;最大似然法、最小距离、支持向量机、随机森林&#xff09;、非监督分类&#xff08;K-means、IsoData&#xff09;&#xff0c;还有面向对…

sqlserver 复制数据库数据

sqlserver 建立索引 alter table [dbo].[SYS_MQTT_MESSAGE_LOG_1] add constraint pk0230725 primary key (smml_id) 主键 建聚集索引 其他的字段要和排序字段一起建索引

家政服务小程序制作攻略揭秘

想要打造一个家政服务小程序&#xff0c;但是又不懂编程和设计&#xff1f;不用担心&#xff01;下面将为你详细介绍如何利用第三方平台&#xff0c;从零开始打造一个家政服务小程序。 首先&#xff0c;你需要找到一个适合的第三方平台&#xff0c;例如乔拓云网。在乔拓云网的【…

2023年Q2京东小家电市场数据分析(京东数据运营)

伴随人们对生活品质追求的提高&#xff0c;以及拥有新兴消费理念的年轻人逐渐成为消费主力&#xff0c;功能新潮、外观精致的小家电经常在电商平台销售榜单里“榜上有名”。本期我们便一起来分析Q2京东小家电市场中&#xff0c;一些较为热门的精致生活小电的行业大盘变动情况。…

stm32 IIC通信

文章目录 IIC 通信一、硬件电路二、IIC时序基本单元三、IIC时序1.指定地址写2.当前地址读3.指定地址读 IIC 通信 IIC总线是一种通用数据总线&#xff0c;有两根通信线&#xff08;SCL(串行时钟总线),SDA&#xff08;串行数据总线&#xff09;&#xff09;。 特点&#xff1a;同…

学生管理系统-04VueX

一、本章目标 vuex的简介【重点】 掌握vuex的基本使用 掌握辅助函数来操作vuex 掌握vuex的模块化【难点】 掌握vuex的持久化 完成Tabs选项卡的二次封装 vuex的使用 封装组件 组件内路由守卫 二、vuex的简介 1、回顾组件之间的通讯 父组件向子组件通讯&#xff1a;通…

2. 两数相加

题目介绍 给你两个 非空 的链表&#xff0c;表示两个非负的整数。它们每位数字都是按照 逆序 的方式存储的&#xff0c;并且每个节点只能存储 一位 数字。 请你将两个数相加&#xff0c;并以相同形式返回一个表示和的链表。 你可以假设除了数字 0 之外&#xff0c;这两个数都…

Hadoop 之 Hbase 配置与使用(四)

Hadoop 之 Hbase 配置与使用 一.Hbase 下载1.Hbase 下载 二.Hbase 配置1.单机部署2.伪集群部署&#xff08;基于单机配置&#xff09;3.集群部署1.启动 hadoop 集群2.启动 zookeeper 集群3.启动 hbase 集群4.集群启停脚本 三.测试1.Pom 配置2.Yml 配置3.Hbase 配置类4.Hbase 连…