大模型遭泄两月后 Meta意外变赢家

news2024/9/20 16:41:45

一份被意外泄露的谷歌内部文件,将Meta的LLaMA大模型“非故意开源”事件再次推到聚光灯前。

“泄密文件”的作者据悉是谷歌内部的一位研究员,他大胆指出,开源力量正在填平OpenAI与谷歌等大模型巨头们数年来筑起的护城河,而最大的受益者是Meta,因为该公司2月意外泄露的LLaMA模型,正在成为开源社区训练AI新模型的基础。

几周内,开发者与研究人员基于LLaMA搞起微调训练,接连发布了Alpaca、Vicuna、Dromedary等中小模型,不只训练成本仅需几百美元,硬件门槛也降低至一台笔记本电脑甚至一部手机,测试结果不比GPT-4差。

除了AI模型之外,FreedomGPT等类ChatGPT应用也如雨后春笋般涌现,基于LLaMa的“羊驼家族”不断壮大,这位研究员认为,Meta很可能借此形成生态,从而成为最大赢家。

事实上,人工智能的世界里,的确有一部分进入了“安卓时刻”,这个部分就是开源社区。特斯拉前AI主管Andrej Karpathy评价开源社区中的AI进化时称,他看到了“寒武纪大爆发的早期迹象”。

在AI竞速的赛道上,奔跑的不只有科技巨头,开源社区正在从小径中涌入大道,成为人工智能开发层面不可忽视的力量。

LLaMa意外开源养出 “羊驼家族”

“我们没有护城河,OpenAI 也没有。”一篇来自Google 内部的文章在 SemiAnalysis 博客传播,文章作者认为,Meta的LLaMa开源模型快速聚集起生态雏形,正在消除与GPT之间的差距,开源AI最终会打破 Google与OpenAI的护城河。

这篇文章让人重新注意到了Meta的 LLaMA 大模型,该模型代码被泄露后的2个月里意外成了开源社区训练自然语言模型的基础,还产生了诸多中小模型及应用。

时间回到今年2月24日,Meta推出大语言模型LLaMA,按参数量分为7B、13B、33B和65B四个版本。别看参数量远远不及GPT-3,但效果在AI圈内获得了一些正面评价,尤其是能在单张GPU运行的优势。

Meta在官方博客中曾称,像LLaMA这种体积更小、性能更高的模型,能够供社区中无法访问大量基础设施的人研究这些模型,进一步实现人工智能大语言模型开发和访问的民主化。

“民主化”来得异常快。LLaMA推出一周后,一位名叫llamanon的网友在国外论坛4chan上以种子文件的方式上传了7B和65B的LLaMA模型,下载后大小仅为 219GB。此后,这个种子链接被发布到开源社区GitHub,下载量超过千次。LLaMA就这样被泄露了,但也因此诞生了诸多实验成果。

最初,名叫 Georgi Gerganov 的开发者开源了一个名为llama.cpp的项目,他基于LLaMA 模型的简易Python语言的代码示例,手撸了一个纯 C/C++ 语言的版本,用作模型推理。换了语言的最大优势就是研究者无需 GPU、只用 CPU能运行LLaMA模型,这让大模型的训练硬件门槛大大降低。

正如谷歌那位研究员写得那样,“训练和实验的门槛从一个大型研究机构的全部产出降低到1个人、1晚上和1台性能强大的笔记本电脑就能完成。”在开发者的不断测试下,LLaMA已经能够在微型计算机树莓派4和谷歌Pixel 6手机上运行。

开源社区的创新热情也彻底点燃,每隔几天都会有新进展,几乎形成了一个“LLaMA(羊驼)生态”。

3月15日,斯坦福大学微调LLaMA后发布了Alpaca(美洲驼)模型,仅用了52K数据,训练时长为3小时。研究者宣称,测试结果与GPT-3.5不分伯仲,而训练成本还不到600美元,在一些测试中,Alpace与GPT-3.5的获胜次数分别为90对89。

随后,加州大学伯克利分校、卡内基梅隆大学、加州大学圣地亚哥分校的研究人员又提出新的模型Vicuna(小羊驼),也是基于LLaMa做出来的,训练成本仅300美元。

在该项目的测评环节,研究人员让GPT-4当“考官”,结果显示,GPT-4在超过90%的问题中更强倾向于Vicuna的回答,并且Vicuna在总分上达到了ChatGPT的92%。

 

用GPT-4测评Vicuna与其他开源模型

短短几周,基于LLaMa构建的“羊驼家族”不断壮大。

4月3日,伯克利人工智能研究院发布了基于LLaMa微调的新模型 Koala(考拉),训练成本小于100美元,在超过一半的情况下与 ChatGPT 性能相当;5月4日,卡内基梅隆大学语言技术研究所、IBM 研究院与马萨诸塞大学阿默斯特分校的研究者们,推出了开源自对齐语言模型Dromedary(单峰骆驼),通过不到300行的人工标注,就能让65B的LLaMA基础语言模型在TruthfulQA(真实性基准)上超越GPT-4。

在国内,垂直医疗领域的 “羊驼家族”成员也出现了,哈尔滨工业大学基于LLaMa模型的指令微调,推出了中文医学智能问诊模型HuaTuo(华驼),该模型能够生成专业的医学知识回答。

 

哈工大推出中文医学智能问诊模型HuaTuo(华驼)

基于该模型的开源创新不仅在大模型上,应用层也有多点开花之势。

3月31日,AI公司Age of AI推出了语言模型FreedomGPT,正是基于斯坦福大学的Alpaca开发出来的;3月29日,加州大学伯克利分校在它的Colossal-AI基础下发布了ColossalChat对话机器人,能力包括知识问答、中英文对话、内容创作、编程等。

从基础模型层到应用层,基于LLaMa所诞生的“羊驼家族”还在一路狂奔。

由于被 “开源” 的 LLaMA 出自 Meta 之手,那位发文的谷歌研究员认为,Meta意外成了这场AI竞争中的最大受益者——借助开源社区的力量,Meta获得了全世界顶级开发者的免费劳动力,因为大多数开源的 AI 创新都发生在他们的基础架构内,因此,没有什么能阻止 Meta将这些成果直接整合到他们的产品中。

开源力量触发“AI的安卓时刻”

ChatGPT引爆AI热后,英伟达的CEO黄仁勋将这股浪潮喻为“AI的iPhone时刻”,他认为,AI行业进入了如iPhone诞生颠覆手机行业时的革命性时间点。而当LLaMA开启开源社区的小宇宙后,网友认为,“AI的安卓时刻”来了。

回顾过去,谷歌曾以开源思想让更多的开发者参与到安卓应用生态的建设中,最终让安卓成为电脑与手机的系统/应用主流。如今,LLaMA再次让AI业内看到了开源力量的强大。

智能软硬件件开发公司出门问问的CEO李志飞也注意到了谷歌这篇内部声音:

“大模型这个领域,Google已经在声势上大幅落后于OpenAI。在开源生态上,如果Google再犹豫不决,后面就算想开源也会大幅度落后于Meta的LLaMA。相反,如果开源,可以把OpenAI的壁垒进一步降低,而且会吸引(或留住)很多支持开源的高级人才。”

特斯拉前AI主管Andrej Karpathy认为:

“当前开源大模型的生态之势,已经有了寒武纪大爆发的早期迹象。”

确实,开发者对开源的AI模型前所未有的热情正在从Github的打星量指标中溢出:Alpaca获得了23.2k星,llama.cpp获26.3k星,LLaMA获20.8k星……而在“羊驼家族”之前,AutoGPT等开源项目也在Github拥有超高的人气,突破100k星。

 

开发者对开源AI模型的打星量

此外,为了追赶 ChatGPT,构建大型开源社区的 AI 初创公司Hugging Face 也在近日推出了开源聊天机器人HuggingChat,该机器人的底层模型拥有300 亿个参数,并对外开放了训练数据集。英伟达 AI 科学家 Jim Fan认为,如果后续开发应用程序,Hugging Face将比 OpenAI 更具优势。

开源力量来势汹汹,手握OpenAI的微软也并不准备把鸡蛋都放在一个篮子里。今年4月,微软推出了开源模型DeepSpeed Chat,为用户提供了 “傻瓜式” 操作,将训练速度提升了15倍。

以LLaMA 为核心的AI开源社区正在平行空间中,与OpenAI等走闭源路线的大模型巨头展开竞速,开源思想与实践中爆发出的创新力量已经不容巨头小觑了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/512355.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Ae:摄像机命令

Ae 中提供了一些摄像机命令,可帮助更好地运用摄像机,比如实现跟焦、切换对焦对象(图层)、展现指定图层内容等等。 Ae菜单:图层/摄像机 Camera 这些命令也可在摄像机图层的右键菜单中选择。 基于 3D 视图生成摄像机 Cre…

MySQL基础-数据库介绍

本文介绍MySQL基础,包括什么是数据库,什么是关系型数据库,数据库和实例区别,数据库分类 文章目录 前言什么是数据库?什么是数据库管理系统(DBMS)?什么是关系型数据库管理系统&#x…

Springboot +Flowable,设置流程变量的方式(一)

一.简介 为什么需要流程变量。 举个例子,假设有如下一个流程,截图如下: 这是一个请假流程,那么谁请假、请几天、起始时间、请假理由等等,这些都需要说明,不然领导审批的依据是啥?那么如何传递…

HTML + CSS (包含移动Web) 笔记

前言 主要还是比较的一些html css&#xff1b;当然也有一些css样式时平时开发中经常用到的&#xff0c;但是我不晓得的&#xff0c;所以还是记录一下吧&#xff1b;给孩子点点关注吧&#xff01;&#x1f62d; 壹、HTML 一、标签 1.1 标题标签 块级元素 <h1> 好好…

go-micro框架-01-启动微服务及微服务间的调用

文章目录 1. 环境准备1.1 安装protoc1.2 安装 go-micro 2. 创建微服务项目2.1 创建第一个服务2.2 初始化2.3 同法再创建2个服务2.4 初始化项目 3. 微服务间调用4. 使用 consul4.1 启动consul4.2 修改代码 1. 环境准备 1.1 安装protoc https://github.com/protocolbuffers/pro…

webpack: 5 报错,错误

webpack-报错&#xff1a;Uncaught ReferenceError: $ is not defined (webpack) webpack打包jquery的插件&#xff08;EasyLazyLoad&#xff09;时&#xff0c;报错 方法一&#xff1a; //多个js文件用到jquery&#xff0c;用这种方法 在jquery.min.js的做最后写上下面的代码…

中交路桥科技浅谈:边坡稳定的影响因素及边坡主要监测内容

边坡稳定的影响因素 岩&#xff08;土&#xff09;性质的影响&#xff1a;包括岩石的坚硬程度、抗风化能力、抗软化能力、强度、组成、透水性等&#xff1b; 岩土结构的影响&#xff1a;表现为节理裂缝的发育程度及其分布规律、结构面的胶结情况、软弱面和破碎带的分布与边坡…

记录--ThreeJs手搓一个罗盘特效

这里给大家分享我在网上总结出来的一些知识&#xff0c;希望对大家有所帮助 先上效果 前言 最近在学Three.js.,对着文档看了一周多&#xff0c;正好赶上码上掘金的活动&#xff0c;就顺便写了一个小demo&#xff0c;手搓一个罗盘特效。 太极 先来看一下太极的实现方式&#xff…

教你一招轻松搞定大量视频滚动字幕

如果你也想批量快速的给大量视频画面添加上滚动字幕的话&#xff0c;那你一定要看这个教程&#xff0c;今天小编要给大家分享一个可以批量给大量视频添加滚动字幕的简单方法&#xff0c;有需要的小伙伴们可以一起来看看具体的操作步骤&#xff01; 首先我们来看看用这个工具添加…

c语言-指针

指针详解 ​ 这段时间在看 Linux内核&#xff0c;深觉C语言功底不扎实&#xff0c;很多代码都看不太懂&#xff0c;深入学习巩固C语言的知识很有必要。先从指针开始。 什么是指针 ​ C语言里&#xff0c;变量存放在内存中&#xff0c;而内存其实就是一组有序字节组成的数组&…

跨域时怎么处理 cookie?

前言 一个请求从发出到返回&#xff0c;需要浏览器和服务端的协调配合。浏览器要把自己的请求参数带给服务端&#xff0c;服务端校验参数之后&#xff0c;除了返回数据&#xff0c;也可能会顺便把请求是否缓存&#xff0c;cookie等信息告诉浏览器。当请求是跨域请求的时候&…

uniapp仿淘宝购物车demo

项目是基于uview2.0的ui组件&#xff0c;并且在一定程度上修改过原本组件的代码&#xff08;app-navbar是使用u-navbar在进行二次封装的组件&#xff1b;u-number-box也进行了修改&#xff09;&#xff0c;符合项目需求&#xff08;这个看个人项目需求在进行修改&#xff09; u…

【 在线音乐平台(onlinemusic) 】

文章目录 一、核心功能二、效果演示三、创建项目四、数据库设计及配置数据库4.1 数据库和表设计4.2 配置连接数据库 五、创建配置类六、具体功能实现6.1 注册模块6.2 登录模块拓展&#xff1a;登录注册加密(MD5&#xff0c;BCrypt) 6.3 退出模块6.4 上传音乐模块知识拓展1&…

RabbitMQ详解(六):RabbitMQ集群搭建

集群 官方参考文档&#xff1a;https://www.rabbitmq.com/clustering.html RabbitMQ这款消息队列中间件产品本身是基于Erlang编写&#xff0c;Erlang语言天生具备分布式特性&#xff08;通过同步Erlang集群各节点的magic cookie来实现&#xff09;。因此&#xff0c;RabbitMQ天…

什么是柔性玻璃?

柔性玻璃(Flexible glass)是一种新型薄膜玻璃基板(Thin film glass substrate)材料&#xff0c;厚度极薄可以弯曲。 柔性玻璃定义有广义和狭义之分&#xff1a; 广义柔性玻璃泛指所有制成微米尺寸具有可弯曲特性的玻璃材料&#xff0c;如玻璃纤维、光纤、玻璃棉、玻璃布等。这些…

第10课【STM32 USB通讯协议实战】HID键盘+CDC虚拟串口组合设备

目录 前言USB设备类别未定义设备设备描述符/配置描述符分析如何配置从机类型如何配置设备专用的描述符如何配置从机端点 HID设备特点设备描述符/配置描述符分析HID报文描述符短条目前缀可选数据表现形式 层次结构实例分析总结 CDC设备特点设备描述符/配置描述符分析设备类特定请…

【LED子系统】四、核心层详解(一)

个人主页&#xff1a;董哥聊技术 我是董哥&#xff0c;嵌入式领域新星创作者 创作理念&#xff1a;专注分享高质量嵌入式文章&#xff0c;让大家读有所得&#xff01; 文章目录 1、前言2、leds_init分析2.1 相关数据结构2.1.1 class 2.2 实现流程 3、leds_class_dev_pm_ops分析…

Mysql出现问题:ERROR 1062 (23000): Duplicate entry ‘‘ for key ‘PRIMARY‘解决方案

回城传送–》《数据库问题解决方案》 ❤️作者主页:小虚竹 ❤️作者简介:大家好,我是小虚竹。Java领域优质创作者🏆,CSDN博客专家🏆,华为云享专家🏆,掘金年度人气作者🏆,阿里云专家博主🏆,51CTO专家博主🏆 ❤️技术活,该赏 ❤️点赞 👍 收藏 ⭐再看,养成…

QT中的模态对话框及非模态对话框

QT中的模态对话框及非模态对话框 [1] QT中的模态对话框及非模态对话框[2] Qt工作笔记-主界面往模式对话框emit信号&#xff0c;有注意的问题正常情况下&#xff1a;不正常情况下&#xff1a;下面给出正常情况下的代码&#xff1a; [1] QT中的模态对话框及非模态对话框 原文链接…

KVM软件安装/Guest OS图形模式安装

KVM软件安装 首先你的Linux操作系统得带有图形化界面 虚拟机开启硬件虚拟化 关闭防火墙和selinux [rootserver-d ~]# systemctl stop firewalld [rootserver-d ~]# systemctl disable firewalld Removed symlink /etc/systemd/system/multi-user.target.wants/firewalld.ser…