大数据产业创新服务媒体
——聚焦数据 · 改变商业
ChatGPT火爆出圈之后,社交巨头Meta奋力追赶,分别在3月、7月发布开源的LLaMA、LLaMA2大模型,引领一场大模型开源运动。
LLaMA2大模型,包含了70亿、130亿、700亿参数三个版本,性能直追GPT3.5,发布之后引起轰动。业界普遍认为,在科技巨头之间的大模型之战中,LLaMA2成功为Meta赢得了一张入场券。
LLaMA2与OpenAI的GPT-4、谷歌的PaLM鼎足而三,基本锁定海外大模型市场的格局,也引发一场开源pk闭源的争论。一个普遍的共识是,在大模型的战场,开源、闭源将长期共存,类似手机市场开放模式的安卓与封闭模式的IOS。
国内大模型的发展,闭源路线有百度的文心一言、科大讯飞的星火大模型,开源路线则有阿里的通义千问。在创业公司当中,王小川创立的百川智能既有开源的Baichuan-7B/13B,又有闭源的Baichuan-53B,在开源、闭源之间构建自己的商业版图。
百川速度,平均28天推出一款大模型
9月6日,百川智能举办主题为“百川汇海,开源共赢”的发布会,宣布开源升级微调之后的Baichuan2大模型。开源之后,Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-chat与其4bit量化版本均为免费可商用。
在此之前的8月31日,作为首批通过《生成式人工智能服务管理暂行办法》备案的八家公司/机构之一,百川智能的大模型产品正式上线,面向社会开放服务。
百川智能由搜狗创始人王小川在4月创立,5月完成天使轮5000万美元融资,获得来自十余家机构的联合投资。6月,百川智能推出第一款70亿参数的通用大模型Baichuan-7B。7月,百川智能又推出130亿参数的通用大模型Baichuan-13B-Base、对话模型Baichuan-13B-chat的两个量化版本。8月,530亿参数的通用大模型Baichuan-53B正式问世。
三个月时间内,百川智能平均28天发布一款大模型,一口气推出三款大模型,跑出了令人惊叹的百川速度。
根据王小川的规划,百川智能将在四季度发布对标ChatGPT3.5的大模型,在2024年一季度发布大模型的超级应用。
理科大提升,Baichuan2挑战LLaMA2
Baichuan2开源大模型是百川智能连续发布三款大模型之后的又一次重大技术迭代。
据王小川介绍,Baichuan2-7B-Base、Baichuan2-13B-Base两款开源大模型基于2.6万亿高质量多语言数据训练而成,是文理兼备的大模型,数学能力、代码能力、安全能力、逻辑、语义理解都得到明显的提升。
相关跑分显示,与上一代Baichuan-13B-Base相比,Baichuan2-13B-Base数学能力提升49%,代码能力提升46%,安全能力提升37%,逻辑推理能力提升25%,语义理解能力提升15%。
据介绍,70亿参数的Baichuan2-7B开源大模型在中文水平上超越了LLaMA2 130亿参数开源大模型,在英文水平上与其持平。Baichuan2-7B实现“以小博大”,小模型相当于大模型,在同尺寸大模型比较时,Baichuan2系列大模型的性能有望全面超越LLaMA2的性能。
开放训练过程,下载量超过500万次
王小川说,LLaMA2的开源协议对中文用户不够友好,Baichuan2发布之后可实现对LLaMA2的平替。对中文使用者而言,“LLaMA2作为一个开源模型的时代已经过去了”。
百川智能采取开源、闭源并重的策略,在推进大模型研发的同时,又积极培育开发者生态。据王小川介绍,Baichuan-7B、Baicuan-13B两款大模型开源之后,在多个权威榜单名列前茅,下载量超过500万次。
Baichuan2大模型开源之际,百川智能又发布相关技术报告,首次开放大模型的训练过程,助力学术界的深入研究。
众所周知,大模型训练包括海量高质量数据获取、大规模训练集群稳定训练、模型算法调优等多个环节,每个环节都需要大量人才、算力资源的投入。百川智能开放模型训练从220B到2460B全过程的check point,对科研机构研究大模型训练过程、模型继续训练和模型价值观对齐等极具价值,可极大推动大模型的科研进展。
文:Bugle-X / 数据猿