转眼进入 AI 时代,ChatGPT 吹起了一股大语言模型之风,恐怕羊驼们绝不曾想到,自己的种族竟也被卷入其中。
AI 产品的命名一向偏好晦涩的缩写。GPT(Generative Pre-trained Transformers)已经是最简明直白的一类。相比之下,同门的 Whisper 语音识别模型发布时,人们挠破头皮也想不出来这种巧妙的缩写从何得来……直到在论文中发现一条不起眼的脚注:
If an acronym or basis for the name is desired, WSPSR standing for Web-scale Supervised Pretraining for Speech Recognition can be used.
——既然你诚心诚意地发问了,那我就大慈大悲地告诉你用 WSPSR 凑合一下。
至于 DALL-E 这个致敬艺术家(西班牙超现实主义画家 Salvador Dalí [萨尔瓦多·达利] )又碰瓷机器人(WALL-E,皮克斯动画《机器人总动员》中的形象瓦利)、根本没个缩写来源的产品式命名,便更不要提了。
GPT 的竞争者在模型性能上紧追不舍,在起名工作上也不落下风。2023 年 2 月 24 日,Meta AI 发布预训练大语言基础模型(Large Language Model Meta AI)。或许是为了图吉利凑个整,Meta 并没有遵循严格的首字母缩写,而是硬生生从这串拗口的单词中看出了梗。
就这样,硅基大羊驼诞生了——LLaMA。
然而,这只大羊驼并没有名字所暗示的那么拉风。基于 1.4 万亿语料(token)预训练的 LLaMA 65B 具有 650 亿参数量,同系列还有 33B、13B、7B 不同参数量的版本(后两者训练预料略少些)。作为对比,ChatGPT 的底座模型 GPT-3 175B(代号 davinci
)参数量为 1750 亿。故仅从参量而言,大羊驼仍显著逊色于「达芬奇」。
值得注意的是,Meta 特别说明 LLaMA 是以非商业授权的形式发布,应主要用于学术研究。其 GitHub 仓库仅给出加载运行模型的示意代码,若要获取核心模型权重,还需要填写表单申请。尽管如此,释出的模型无疑给久旱的社区注以甘霖,为挑战 OpenAI 封闭式炼丹吹响冲锋的号角。
接下来的短短数十天内,在大羊驼 LLaMA 的托举下,羊驼们已然蓬勃成军,正朝看似高不可攀的 ChatGPT,全方位、一步步地追赶进攻——
3 月 13 日,斯坦福大学基础模型研究中心(Center for Research on Foundation Models,CRFM)发布了指令精调模型 Alpaca 7B,使用 5.2 万由 OpenAI 的 text-davinci-003
模型1生成的指令数据,对 LLaMA 7B 进行精调而得。斯坦福羊驼横空出世,开源了包括准备过程、数据集、训练步骤等在内的整套方案,经评估能取得近似 text-davinci-003
的指令服从效果,但低成本且高效、易于复现,经验启发了许多蠢蠢欲动的后来者。
3 月 16 日,在 Alpaca 基础上补充了多语种语料和指令任务的 Guanaco 原驼模型问世。
3 月 19 日,来自加州大学伯克利分校、卡内基梅隆大学、斯坦福大学、加州大学圣地亚哥分校的几位计算机博士组队,以大模型系统(Systems for Large Models,LM-SYS)的名义发布了「小羊驼」 Vicuna-13B。基于 ShareGPT 收集的对话对 LLaMA 进行精调,仅需 300 美元即完成训练的小羊驼,号称达到了 ChatGPT 90% 的能力,并将 Meta 大羊驼和斯坦福羊驼均甩在身后。
3 月 23 日,「中文小羊驼」Chinese-Vicuna 携模型及数据面世,基于 LLaMA 模型和 LoRA 方案,可按需投喂数据进行个性化指令精调。
3 月 24 日,Databricks 发布 Dolly 模型,基于「有些过时」的 GPT-J-6B 精调,旨在证明精调指令数据比底座模型更为重要。考虑到其本质是 Alpaca 的开源克隆2,Dolly v1 虽不涉及 LLaMA 许可,但因 Alpaca 所用指令精调数据通过调用 OpenAI API 生成,按照 OpenAI 的非竞争条款不可商用;于是 Databricks 发动公司员工举办了标注竞赛,所得数据精调来的 Dolly v2 终于可以商用,「克隆羊多利」之名也由此而来。
3 月 25 日,来自华中师范大学和商汤的几位伙伴发布了开源中文大语言模型「骆驼」(Luotuo),并坦白命名逻辑:
我们将项目命名为骆驼 Luotuo (Camel) 主要是因为,Meta之前的项目LLaMA(驼马)和斯坦福之前的项目alpaca(羊驼)都属于偶蹄目-骆驼科(Artiodactyla-Camelidae)。而且骆驼科只有三个属,再不起这名字就来不及了。
3 月 28 日,中文 LLaMA & Alpaca 大模型发布,在 LLaMA 基础上扩充了中文词表并加入中文数据预训练,以及与 Alpaca 相似但增加了中文指令数据的精调,显著提高模型中文能力;
日新月异,不堪尽数……
大模型领域的羊驼家族
不止模型,周边配套工具同样呈星火燎原之势:大幅降低推理成本的 llama.cpp、连接羊驼与外部资料的 LlamaIndex、对羊驼模型进行局部再训练的 Alpaca-LoRA、训练提高羊驼感知链的 Alpaca-CoT、在 macOS 优雅地跟羊驼们聊天的 LlamaChat(本文封面即引自该项目的放克羊驼)。
……全链条覆盖,俨然已自成生态。只等某天时机成熟,便围攻 OpenAI 于光明顶。
结语
据说羊驼母亲妊娠时间长达 11.5 个月,但刚分娩出世的羊驼仔落地即可奔跑。这与 LLaMA 和 Alpaca 发起的大语言模型(LLM)平民化运动莫名雷同——起步虽晚,加速极强。
时至今日,美洲驼一族已不局限于南美,其凭借惹人喜欢的外表和聪明友善的性格,正被全世界人民了解。另一边,大语言模型发展仍纷繁暇目,羊驼伙伴名字都几乎用尽,转而以一种精神符号存活于开源社区的各处,激励大家继续求索。希望在不久的将来,AI 人人可用。