PaLM 2重磅来袭,深挖谷歌92页技术报告亮点总结

news2024/11/24 18:33:41

谷歌CEO桑达尔・皮查伊(Sundar Pichai)亲切地将2023年称为是一个AI busy year,当地时间5月10日,谷歌IO大会上,谷歌大语言模型PaLM 2虽迟但到。作为一个“AI-first”公司,谷歌在Bard聊天机器人爆出事实性错误的之后几个月,终于推出了全新一代大语言模型PaLM 2。

技术报告链接:

https://ai.google/static/documents/palm2techreport.pdf

如果要追溯大语言模型的发展脉络,恐怕还得从2017年谷歌大脑Vaswani等人[1]提出的Transformer架构说起,虽然PaLM 2发布时间相比于OpenAI的GPT-4晚了一点,但是早在2022年4月,谷歌大模型的第一代版本PaLM就已经发布。坐拥互联网全家桶业务的谷歌,为PaLM 2一次性提供了四个不同规模的版本,以适用于各种不同的应用场景,四个版本从小到大分别为Gecko(壁虎)、Otter(水獭)、Bison (野牛)和 Unicorn (独角兽)。其中最轻量的Gecko(壁虎)模型甚至可以在移动端直接部署,并且可以保证非常可靠的运行速度,在离线时也能在手机上稳定运行。

谷歌同时发布了长达92页的PaLM 2技术报告,文中强调,PaLM建立在谷歌在机器学习和可靠性人工智能(responsible AI)领域的突破性研究基础之上。

在这份技术报告中,谷歌首先致敬了信息论之父克劳德・香农(C.E.Shannon) 在1951年发表的论文《Prediction and Entropy of Printed English》[2],香农在这篇论文中首次提出了可以通过预测文本中的下一个词来估计语言中所含信息的观点,这一观点可以被视为是后来语言建模(language modeling)的核心。报告随后从模型缩放实验、训练数据集构成、性能评估实验和可靠性使用等多个方面对PaLM 2进行了介绍,本文选取了其中几个方面并结合谷歌IO大会上的一些产品亮点进行简要的总结,可以分为以下四个方面:

(1)多语言能力:PaLM 2相比第一代PaLM增加了更多的非英文语料库进行训练,语料语言种类总数超过了100类,为模型提供了非常强大的多语言翻译、理解、推理和生成能力。

(2)模型整体架构的改进:虽然PaLM 2仍然沿用Transformer架构进行训练,但是相比之前仅通过单一的masked语言建模或因果机制建模,PaLM 2引入了更加丰富的预训练目标任务,以帮助模型在多个角度挖掘语义信息。

(3)模型参数规模改进:PaLM 2相比其前代模型PaLM(参数量规模在5400亿左右),参数规模大幅下降,但是在包括翻译、推理和生成等多种任务上的性能都远超过PaLM。此外,谷歌在PaLM 2的训练过程中进行了详细的模型参数缩放规律,这为行业不断扩展大模型规模和代价权衡方面提供了新的宝贵经验。

(4)基于PaLM 2的专家模型:谷歌宣布,目前已有超过70个谷歌内部产品团队在使用PaLM 2来构建新产品,目前已经介绍的新产品包括医疗专家模型Med-PaLM 2和安全领域专家模型Sec-PaLM。

一、多语言能力

先前的大型预训练语言模型通常使用以英语文本为主的数据集,PaLM 2在此基础上尝试了一种具有多语言特点的混合预训练数据集模式,其预训练语料库由网络文档、书籍、代码、数学和对话数据等多种类型的数据构成。下表展示了PaLM 2所使用数百种语言占比排名前50的语言分布(其中去除了占比最大的英语)。

由于该数据集包含有更高比例的非英语数据,这使得PaLM 2在一些多语言任务(例如,翻译和多语言问答)上展现出更优越的性能,同时也不会影响模型在英语语言理解方面的性能。此外我们注意到,除了英语之外,PaLM 2训练使用的西班牙语、汉语和俄语的比例也很高,这有点让人期待谷歌Bard机器人在接入PaLM 2后的中文使用效果。

此外PaLM 2的多语言能力并不仅仅局限于简单的语言翻译,它还为我们展现出了大语言模型在跨语言交互和推理方面的强大潜力。例如你可以给定一段代码,让它在解决其中bug的同时为每行代码加上详细的韩语注释。

还可以让PaLM 2通过理解音译文字将所描述的波斯谚语翻译出来。

甚至还能让PaLM 2进一步在汉语中寻找与该谚语意思相近的中文谚语,PaLM 2找的非常准确,甚至还对“不经一番寒彻骨,怎得梅花扑鼻香”进行了解释。

二 、模型参数缩放实验

目前各公司在发布自家的Transformer大模型时,基本上都会进行模型参数缩放(Scaling law experiments)实验,目的是为了研究模型训练数据量(D)和模型大小(N)之间的关系,来帮助研究者总结大模型训练经验。

2020年Kaplan等人发表的论文《Scaling laws for neural language models》[3]首次对这些因素进行了研究,并得出了大模型训练基本遵循幂律的经验结论,即模型大小N要比数据量D的扩展速度更快。在此基础上,Hoffmann等人[4]在2022年提出了不同意见,他们认为一味地增加模型参数规模可能并不是大模型训练的最优解,他们通过调整较小模型的超参数发现,模型大小N和数据量D在相同比例扩展的情况下,模型也同样能够达到最佳性能。谷歌在PaLM 2的实验过程中也证实了Hoffmann等人的结论,实验结果如下图所示。

图中横坐标FLOPs代表算力,纵坐标分别为模型最优参数量(左图)和最优参与训练的token数量(右图)。可以看到,模型参数规模和训练数据随着算力同比例增长时,模型性能最佳。这一结论再次表明,盲目的增加参数规模并不是大模型训练的最优解,将更多的精力放在数据清洗和更高效的架构探索可能是未来提升大模型性能的关键。

三 、性能评估结果

谷歌在技术报告中详细介绍了对PaLM 2进行的多项性能评估结果,评估主要涵盖了6项高级任务,包括分类、问答、推理、编码、翻译和自然语言生成,作者团队强调,这6项任务可以体现LLM的核心能力。同时在这6项性能评估时,作者团队都着重将多语言能力和可靠性AI(评估模型潜在的缺陷和风险)作为评估的共同点。

在模型推理能力方面,作者团队主要从两个方面进行评估,首先选取了包括WinoGrande、ARC-C、DROP、StrategyQA、CommonsenseQA、XCOPA和BIG-Bench (BB) Hard在内的多个常识推理数据集,实验结果如下表所示,可以看到PaLM 2在更多的数据集上相比GPT-4具有更准确的推理效果。

另一方面,PaLM 2在数学专业领域的推理能力也相当出色,作者选取了MATH、GSM8K和MGSM作为数学推理评估数据集,其中MATH包含了来自7个数学领域高中竞赛的12,500个问题。实验效果如下,可以看到PaLM 2在MATH数据集上的推理效果同样超过了GPT-4。

此外,作者团队还考虑了PaLM 2在多编程语言生成方面的效果,使用BabelCode来进行评估,它可以将HumanEval代码数据集翻译成各种其他编程语言,包括 C++、Java、Go 等高资源利用语言和Haskell、Julia等低资源利用语言,下图展示了12种语言的生成效果对比。

由于PaLM 2训练使用的代码数据集相比前代PaLM的规模更多,因此PaLM 2在这一方面的性能都远超过PaLM。

四、专家模型

随着PaLM 2的发布,我们也可以初探谷歌在大模型业务方面的布局,PaLM 2完全可以作为一个base模型,随后使用众多领域的专家知识进行微调来得到多个不同的专家PaLM 2模型,例如谷歌CEO在IO大会上重点介绍的Med-PaLM 2,就是谷歌在医疗领域进行的尝试。

Med-PaLM 2由谷歌具有医学知识的健康研究团队训练,她可以回答患者的问题并从海量的医学语料中总结出专业的医疗知识,Med-PaLM 2还是目前第一个在美国医疗执照考试上达到“专家”水平的大语言模型

此外,谷歌还考虑在Med-PaLM 2上加入多模态功能(例如输入X光片)以便模型能够整合更多维度的医疗信息,来得到更准确的医学专业回答。

五 、贡献名单

同OpenAI发布GPT-4时一样,谷歌也在技术报告中罗列了PaLM 2的研发团队组织架构和成员名单,研发团队规模相当庞大,成员多达上百位,这里我们只展示了其中的一部分。

整体工程由大模型训练、架构设计、预训练数据收集、模型评估、可靠性AI、微调、优化、部署等多个团队参与。

六 、总结

作为谷歌的下一代大型语言模型,PaLM 2的发布备受关注,本文从PaLM 2的几个创新方面进行了简单的总结,PaLM 2相比前代模型在高级推理任务上面有了显著的进步,尤其是在代码生成、数学推理以及多语言能力方面。此外谷歌也对大模型训练缩放方面进行了研究,证明了通过对模型数据集配置和架构选择等方面进行改进,完全可以在一定的参数规模内提升大模型的性能。PaLM 2的入场,使得最近的大模型竞争更加激烈和精彩,作为大模型技术的见证者和参与者,我们期待着更多更好的大模型早日到来。

参考文献

[1] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Go ez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. Advances in neural information processing systems, 30, 2017.

[2] Shannon, C. E. Prediction and entropy of printed english. Bell System Technical Journal, 30(1):50–64, 1951. doi: https://doi.org/10.1002/j.1538-7305.1951.tb01366.x.

[3] Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J., and Amodei, D. Scaling laws for neural language models. arXiv preprint arXiv:2001.08361, 2020.

[4] Hoffmann, J., Borgeaud, S., Mensch, A., Buchatskaya, E., Cai, T., Rutherford, E., Casas, D. d. L., Hendricks, L. A., et al. Training compute-optimal large language models. NeurIPS, 2022.

作者:seven_

Illustration by IconScout Store from IconScout

点击阅读原文

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/571598.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

异常排查 | 重复Cookie访问导致HTTP请求引发空指针异常

文章目录 一、场景描述二、异常说明三、查找问题四、调试排查五、思考分析六、解决方案七、写在最后 近几日,遇到一个困惑了我很久的异常,是浏览器页面向Tomcat服务器发起HTTP请求时,服务器发还回来的一处异常 java.lang.NullPointerExceptio…

html实现酷炫星空可视化大屏(附源码)

文章目录 1.设计来源1.1 可视化架构1.2 可视化大屏界面 2.效果和源码2.1 动态效果2.2 源代码 源码下载 作者:xcLeigh 文章地址:https://blog.csdn.net/weixin_43151418/article/details/130884793 html实现酷炫星空可视化大屏(附源码) ,html大…

华为OD机试真题(Java),跳跃游戏 II(100%通过+复盘思路)

一、题目描述 给定一个长度为 n 的 0 索引整数数组 nums。初始位置为 nums[0]。 每个元素 nums[i] 表示从索引 i 向前跳转的最大长度。换句话说&#xff0c;如果你在 nums[i] 处&#xff0c;你可以跳转到任意 nums[i j] 处: 0 < j < nums[i]0i j < 返回到达 num…

Talk预告 | ICML‘23 Oral 字节跳动 AI Lab 研究员郑在翔:人工智能如何助力蛋白质设计?

本期为TechBeat人工智能社区第500期线上Talk&#xff01; 北京时间5月25日(周四)20:00&#xff0c;字节跳动 AI Lab 研究员 — 郑在翔的Talk将准时在TechBeat人工智能社区开播&#xff01; 他与大家分享的主题是: “人工智能如何助力蛋白质设计 ”&#xff0c;届时将介绍基于…

springboot+vue智慧食堂系统(java项目源码+文档)

风定落花生&#xff0c;歌声逐流水&#xff0c;大家好我是风歌&#xff0c;混迹在java圈的辛苦码农。今天要和大家聊的是一款基于springboot的智慧食堂系统。项目源码以及部署相关请联系风歌&#xff0c;文末附上联系信息 。 &#x1f495;&#x1f495;作者&#xff1a;风歌&a…

Rancher添加集群报错:Etcd Cluster is not healthy

原因&#xff1a; 有一台虚拟机在升级内核失败后&#xff0c;回滚至快照。但由于快照版本太老旧&#xff0c;和当前的rancher版本不匹配&#xff0c;服务器上的agent等需要清楚后&#xff0c;重新在rancher添加集群&#xff1b;但是只删除了rancher镜像以及agent相关容器&#…

Linux设备树:删除节点和属性的方法

[摘要]&#xff1a;本文主要介绍了在设备树中删除节点&#xff08;node&#xff09;和属性&#xff08;property&#xff09;的方法。为了便于理解&#xff0c;笔者先介绍了 dtsi 和 dts 的关系&#xff0c;然后构建了虚拟的需求场景&#xff0c;最终给出示例。 背景知识 设备…

易基因:MeRIP-seq等揭示m6A reader YTHDF1在结直肠癌PD-1免疫治疗中的作|Gut

大家好&#xff0c;这里是专注表观组学十余年&#xff0c;领跑多组学科研服务的易基因。 结直肠癌&#xff08;colorectal cancer &#xff0c;CRC&#xff09;是全球最常见的癌症之一&#xff0c;转移性CRC患者的5年生存率低于20%。免疫检查点阻断&#xff08;Immune checkpo…

基于LLMs的多模态大模型(MiniGPT-4,LLaVA,mPLUG-Owl,InstuctBLIP,X-LLM)

这个系列的前一些文章有&#xff1a; 基于LLMs的多模态大模型&#xff08;Visual ChatGPT&#xff0c;PICa&#xff0c;MM-REACT&#xff0c;MAGIC&#xff09;基于LLMs的多模态大模型&#xff08;Flamingo, BLIP-2&#xff0c;KOSMOS-1&#xff0c;ScienceQA&#xff09; 前…

《汇编语言》- 读书笔记 - 第3章-寄存器(内存访问):mov、add、sub、push、pop

《汇编语言》- 读书笔记 - 第3章-寄存器&#xff08;内存访问&#xff09; 3.1 内存中字的存储问题 3.1 3.2 DS 和 [address]问题 3.2 3.3 字的传送问题 3.3问题 3.4 3.4 mov、add、sub 指令3.5 数据段问题 3.53.1~3.5 小结检测点 3.1 3.6 栈3.7 CPU 提供的栈机制问题 3.6 3.8 …

基于LSB实现文本、图片、压缩包的隐藏

关于LSB的相关介绍&#xff1a; LSB全称为 Least Significant Bit&#xff08;最低有效位&#xff09;&#xff0c;是一种基于图片最低有效位修改储存信息的隐写方法&#xff0c;在CTF杂项中经常会遇到&#xff0c;LSB属于空域算法中的一种&#xff0c;是将信息嵌入到图像点中…

OPCUA从入门到精通看这里就够了

本文将会从以下几个方面介绍 1.OPCUA是什么 2.OPCUA常用的工具有那些 3.OPCUA的官网 4.使用opcua常用的方法和功能介绍 5.根据官网自己封装了一个opcuaclient类&#xff0c;并说明每个方法的用处 6.根据4中的opcuaclient类自己写了demo 本文所有用到的资料在此下载包括U…

Android平台音视频推送选RTMP还是GB28181?

技术背景 早在2015年&#xff0c;我们发布了RTMP直播推送模块&#xff0c;那时候音视频直播这块场景需求&#xff0c;还不像现在这么普遍&#xff0c;我们做这块的初衷&#xff0c;主要是为了实现移动单兵应急指挥系统的低延迟音视频数据传输。好多开发者可能会疑惑&#xff0…

信息系统建设和服务能力评估证书CS

信息系统建设和服务能力评估体系CS简介 简介&#xff1a;本标准&#xff08;团标T/CITIF 001-2019&#xff09;是信息系统建设和服务能力评估体系系列标准的第一个&#xff0c;提出了对信息系统建设和服务提供者的综合能力要求。 发证单位&#xff1a;中国电子信息行业联合会。…

整型,浮点型,大小字节知识细节一网打尽!

目录 一. 整型 2.11 C语言内置整型 2.12整型在内存如何存储&#xff1f; 2.12 原码&#xff0c;反码&#xff0c; 补码 2.13 当 整型遇上unsigned 2.1 unsigned 与 signed 解析 2.2 printf 输出 有无符号数解析 2.3 有关练习 二. 浮点型 2.51 浮点型与整型在存储上的…

视频会议产品对比分析

内网视频会议系统如何选择&#xff1f;有很多单位为了保密&#xff0c;只能使用内部网络&#xff0c;无法连接互联网&#xff0c;那些SaaS视频会议就无法使用。在内网的优秀视频会议也有很多可供选择&#xff0c;以下是几个常用的&#xff1a; 1. 宝利通&#xff1a;它支持多种…

港联证券|新产品“内卷”,史上最火光伏展能否带动光伏板块行情

在光伏成为“能源老大”之前&#xff0c;指数何时能够跑赢A股股主要股指&#xff0c;或是散户关注的重点。 时隔两年&#xff0c;SNEC上海光伏展如约举办。本届展会吸引了3000余家光伏公司参展&#xff0c;累计50万人涌进场馆&#xff0c;现场人群拥挤度丝毫不逊于过去两年资金…

Navicat连接Oracle时报错ORA-28547

错误信息 这是因为Navicat自带的oci.dll并不支持oracle11g&#xff0c;网上这么说的&#xff0c;需要去官网下载支持的版本。 直接动手。 1. 先DBeaver的连接到oracle数据库&#xff08;为了查询版本&#xff09; 1.1 查询版本 SQL&#xff1a;select * from v$version;1.2 …

如何利用Linkage Mapper工具包评估栖息地碎片化程度详解(含实例分析)

✅创作者:陈书予 🎉个人主页:陈书予的个人主页 🍁陈书予的个人社区,欢迎你的加入: 陈书予的社区 🌟专栏地址: Linkage Mapper解密数字世界链接 文章目录 Linkage Mapper工具包评估栖息地碎片化程度详解1. 介绍1.1 简介1.2 ArcGIS概述1.3 Linkage Mapper工具包简介

生态伙伴 | 携手深圳科创学院,持续推动项目落地与成长

01 大赛介绍 中国硬件创新创客大赛始于2015年&#xff0c;由深圳华秋电子有限公司主办&#xff0c;至今已经成功举办八届&#xff0c;赛事范围覆盖华南、华东、华北三大地区&#xff0c;超10个省市区域。 大赛影响了超过45万工程师群体&#xff0c;吸引了35000多名硬创先锋报…