大模型LLM领域,有哪些可以作为学术研究方向?

news2025/2/7 2:21:51

清湛人工智能研究院 2023-05-31 09:23 发表于江苏

编者:本文转载了清华大学计算机系刘知远教授对大模型的一些思索,以飨读者。

刘知远

CCF 高级会员,CCCF 前编委。清华大学计算机系副教授、博士生导师。已在ACL、IJCAI、AAAI等人工智能领域的著名国际期刊和会议发表相关论文80余篇,Google Scholar统计引用超过1万次。承担多项国家自然科学基金。曾获中文信息学会青年创新奖,入选国家青年拔尖人才支持计划,智源研究院青年科学家,中国科学青年人才托举工程。

正文如下:

感觉有责任回答这个问题,恰好在高铁上写下回答。2022年初我做过一个报告题目是《大模型十问》,分享我们认为大模型值得探索的十个问题。当时大模型还没这么火,而现在大模型已然妇孺皆知日新月异,不过整体看当时提到的这10个问题大部分还没过时。报告内容和这个问题很契合,所以这里我以这个报告框架为蓝本,略作更新作为回答,希望更多研究者能够在大模型时代找到自己的研究方向。

我看过有些评论说,大模型出现后NLP没什么好做的了。在我看来,在像大模型这样的技术变革出现时,虽然有很多老的问题解决了、消失了,同时我们认识世界、改造世界的工具也变强了,会有更多全新的问题和场景出现,等待我们探索。所以,不论是自然语言处理还是其他相关人工智能领域的学生,都应该庆幸技术革命正发生在自己的领域,发生在自己的身边,自己无比接近这个变革的中心,比其他人都更做好了准备迎接这个新的时代,也更有机会做出基础的创新。希望更多同学能够积极拥抱这个新的变化,迅速站上大模型巨人的肩膀,弄潮儿向涛头立,积极探索甚至开辟属于你们的方向、方法和应用。

提纲

  1. 基础理论:大模型的基础理论是什么?

  2. 网络架构Transformer是终极框架吗?

  3. 高效计算:如何使大模型更加高效

  4. 高效适配:大模型如何适配到下游任务

  5. 可控生成:如何实现大模型的可控生成

  6. 安全可信:如何改善大模型中的安全伦理问题?

  7. 认知学习:如何使大模型获得高级认知能力

  8. 创新应用:大模型有哪些创新应用

  9. 数据评价:如何评估大模型的性能?

  10. 易用性:如何降低大模型的使用门槛?

方向一:大模型的基础理论问题

随着全球大炼模型不断积累的丰富经验数据,人们发现大模型呈现出很多与以往统计学习模型、深度学习模型、甚至预训练小模型不同的特性,耳熟能详的如Few/Zero-Shot Learning、In-Context Learning、Chain-of-Thought能力,已被学术界关注但还未被公众广泛关注的如Emergence、Scaling Prediction、Parameter-Efficient Learning (我们称为Delta Tuning)、稀疏激活和功能分区特性,等等。我们需要为大模型建立坚实的理论基础,才能行稳致远。对于大模型,我们有很多的问号,例如:

What——大模型学到了什么?大模型知道什么还不知道什么,有哪些能力是大模型才能习得而小模型无法学到的? 2022年Google发表文章探讨大模型的涌现现象,点明很多能力是模型规模增大以后神奇出现的 [1]。那么大模型里究竟还藏着什么样的惊喜,这个问题尚待我们挖掘。

How—— 如何训好大模型?随着模型规模不断增大(Scaling)的过程,如何掌握训练大模型的规律 [2],其中包含众多问题,例如数据如何准备和组合,如何寻找最优训练配置,如何预知下游任务的性能,等等 [3]。这些是How的问题。

Why——大模型为什么好?这方面已经有很多非常重要的研究理论[4,5,6],包括过参数化等理论,但终极理论框架的面纱仍然没有被揭开。

面向What、How和Why等方面的问题,大模型有非常多值得探索的理论问题,等待大家的探索。我记得几年前黄铁军老师举过一个例子,说是先发明了飞机,才产生的空气动力学。我想这种从实践到理论的升华是历史的必然,也必将在大模型领域发生。这必将成为人工智能整个学科的基础,因此列为十大问题的首个问题。

我们也认为有必要记录大模型所呈现的各种特性,供深入研究探索。为此,我们计划开源一个仓库 BMPrinciples[1],收集和记录大模型发展过程中的现象,这些现象有助于开源社区训练更好的大模型和理解大模型。

参考文献
[1] Wei et al. Emergent Abilities of Large Language Models. TMLR 2022.
[2] Kaplan et al. Scaling Laws for Neural Language Models. 2020
[3] OpenAI.GPT-4 technical report. 2023.
[4] Nakkiran et al. Deep double descent: Where bigger models and more data hurt. ICLR 2020.
[5] Bubeck et al. A universal law of robustness via isoperimetry. NeurIPS 2021.
[6] Aghajanyan et al. Intrinsic dimensionality explains the effectiveness of language model fine-tuning. ACL 2021.

方向二:大模型的网络架构问题

目前大模型主流网络架构Transformer是2017年提出的。随着模型规模增长,我们也看到性能提升出现边际递减的情况,Transformer是不是终极框架?能否找到比Transformer更好、更高效的网络框架?这是值得探索的基础问题。

实际上,深度学习的人工神经网络的建立受到了神经科学等学科的启发,面向下一代人工智能网络架构,我们也可以从相关学科获得支持和启发。例如,有学者受到数学相关方向的启发,提出非欧空间Manifold网络框架,尝试将某些几何先验知识放入模型,这些都是最近比较新颖的研究方向。

也有学者尝试从工程和物理学获得启示,例如State Space Model,动态系统等。神经科学也是探索新型网络架构的重要思想来源,类脑计算方向一直尝试Spiking Neural Network等架构。到目前为止,下一代基础模型网络框架是什么,还没有显著的结论,仍是一个亟待探索的问题。

参考文献
[1] Chen et al. Fully Hyperbolic Neural Networks. ACL 2022.
[2] Gu et al. Efficiently Modeling Long Sequences with Structured State Spaces. ICLR 2022.
[3] Gu et al. Combining recurrent, convolutional, and continuous-time models with linear state space layers. NeurIPS 2021
[4] Weinan, Ee. A proposal on machine learning via dynamical systems. Communications in Mathematics and Statistics.
[5] Maass, Wolfgang. Networks of spiking neurons: the third generation of neural network models. Neural networks.

方向三:大模型的高效计算问题

现在大模型动辄包含十亿、百亿甚至千亿参数。随着大模型规模越变越大,对计算和存储成本的消耗也越来越大。之前有学者提出GreenAI的理念,将计算能耗作为综合设计和训练人工智能模型的重要考虑因素。针对这个问题,我们认为需要建立大模型的高效计算体系。

首先,我们需要建设更加高效的分布式训练算法体系,这方面很多高性能计算学者已经做了大量探索,例如,通过模型并行[9]、流水线并行[8]、ZeRO-3[1] 等模型并行策略将大模型参数分散到多张 GPU 中,通过张量卸载、优化器卸载等技术[2]将 GPU 的负担分摊到更廉价的 CPU 和内存上,通过重计算[7] 方法降低计算图的显存开销,通过混合精度训练[10]利用 Tensor Core 提速模型训练,基于自动调优算法 [11, 12] 选择分布式算子策略等 。

目前,模型加速领域已经建立了很多有影响力的开源工具,国际上比较有名的有微软DeepSpeed、英伟达Megatron-LM,国内比较有名的是OneFlow、ColossalAI等。而在这方面我们OpenBMB社区推出了BMTrain,能够将GPT-3规模大模型训练成本降低90%以上。

未来,如何在大量的优化策略中根据硬件资源条件自动选择最合适的优化策略组合,是值得进一步探索的问题。此外,现有的工作通常针对通用的深度神经网络设计优化策略,如何结合 Transformer 大模型的特性做针对性的优化有待进一步研究。

然后,大模型一旦训练好准备投入使用,推理效率也成为重要问题,一种思路是将训练好的模型在尽可能不损失性能的情况下对模型进行压缩。这方面技术包括模型剪枝、知识蒸馏、参数量化等等。最近我们也发现,大模型呈现的稀疏激活现象也能够用来提高模型推理效率,基本思想是根据稀疏激活模式对神经元进行聚类分组,每次输入只调用非常少量的神经元模块即可完成计算,我们把这个算法称为MoEfication [5]。

在模型压缩方面,我们也推出了高效压缩工具BMCook [4],通过融合多种压缩技术极致提高压缩比例,目前已实现四种主流压缩方法,不同压缩方法之间可根据需求任意组合,简单的组合可在10倍压缩比例下保持原模型约98%的性能,未来,如何根据大模型特性自动实现压缩方法的组合,是值得进一步探索的问题。

这里提供一些关于MoEfication [5]更详细的信息:基于稀疏激活现象,我们提出在不改变原模型参数情况下,将前馈网络转换为混合专家网络,通过动态选择专家以提升模型效率。实验发现仅使用10%的前馈网络计算量,即可达到原模型约97%的效果。相比于传统剪枝方法关注的参数稀疏现象,神经元稀疏激活现象尚未被广泛研究,相关机理和算法亟待探索。

参考文献
[1] Samyam Rajbhandari et al. ZeRO: memory optimizations toward training trillion parameter models. SC 2020.
[2] Jie Ren et al. ZeRO-Offload: Democratizing Billion-Scale Model Training. USENIX ATC 2021.
[3] Dettmers et al. LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale. NeurIPS 2022.
[4] Zhang et al. BMCook: A Task-agnostic Compression Toolkit for Big Models. EMNLP 2022 Demo.
[5] MoEfication: Transformer Feed-forward Layers are Mixtures of Experts. Findings of ACL 2022.
[6] The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in Transformers. ICLR 2023.
[7] Training Deep Nets with Sublinear Memory Cost. 2016.
[8] Fast and Efficient Pipeline Parallel DNN Training. 2018.
[9] Megatron-lm: Training multi-billion parameter language models using model parallelism. 2019.
[10] Mixed Precision Training. 2017.
[11] Unity: Accelerating {DNN} Training Through Joint Optimization of Algebraic Transformations and Parallelization. OSDI 2022.
[12] Alpa: Automating Inter- and {Intra-Operator} Parallelism for Distributed Deep Learning. OSDI 2022.

方向四:大模型的高效适配问题

大模型一旦训好之后,如何适配到下游任务呢?模型适配就是研究面向下游任务如何用好模型,对应现在比较流行的术语是“对齐”(Alignment)。

传统上,模型适配更关注某些具体的场景或者任务的表现。而随着ChatGPT的推出,模型适配也开始关注通用能力的提升以及与人的价值观的对齐。我们知道,基础模型越大在已知任务上效果越好,同时也展现出支持复杂任务的潜力。而相应地,更大的基础模型适配到下游任务的计算和存储开销也会显著增大。

这点极大提高了基础模型的应用门槛,从我们统计的2022年前的论文来看,尽管预训练语言模型已经成为基础设施,但是真正去使用大模型的论文占比还非常低。非常重要的原因就在于,即使全世界已经开源了非常多的大模型,但是对于很多研究机构来讲,他们还是没有足够计算资源将大模型适配到下游任务。这里,我们至少可以探索两种提高模型适配效率的方案。

方案一是提示学习(Prompt Learning),即从训练和下游任务的形式上入手,通过为输入添加提示(Prompts)[1,2,3] 来将各类下游任务转化为预训练中的语言模型任务,实现对不同下游任务以及预训练-下游任务之间形式的统一,从而提升模型适配的效率。实际上,现在流行的指令微调(Instruction Tuning)就是使用提示学习思想的具体案例。

我去年在微博上有过一条评论,prompt learning将会成为大模型时代的feature engineering。而现在已经涌现出很多提示工程(Prompt Engineering)的教程,可见提示学习已成为大模型适配的标配。

方案二是参数高效微调(Parameter-effcient Tuning 或Delta Tuning)[4, 5, 6],基本思想是保持绝大部分的参数不变,只调整大模型里非常小的一组参数,这能够极大节约大模型适配的存储和计算成本,而且当基础模型规模较大(如十亿或百亿以上)时参数高效微调能够达到与全参数微调相当的效果。目前,参数高效微调还没有获得像提示微调那样广泛的关注,而实际上参数高效微调更反映大模型独有特性。

为了探索参数高效微调的特性,我们去年曾对参数高效微调进行过系统的研究和分析,给出了一个统一范式的建模框架:在理论方面,从优化和最优控制两个角度进行了理论分析;在实验方面,从综合性能、收敛效率、迁移性和模型影响、计算效率等多个角度出发,在100余个下游任务上进行了实验分析,得出很多参数高效驱动大模型的创新结论,例如参数高效微调方法呈现明显的Power of Scale现象,当基础模型规模增长到一定程度,不同参数高效微调方法的性能差距缩小,且性能与全参数微调基本相当。这篇论文今年成为了《自然-机器智能》(Nature Machine Intelligence)杂志的封面文章 [4],欢迎大家下载阅读。

在这两个方向我们开源了两个工具:OpenPrompt [7]和OpenDelta来推动大模型适配研究与应用。其中,OpenPrompt是第一个统一范式的提示学习工具包,曾获ACL 2022的最佳系统&演示论文奖(ACL 2022 Best Demo Paper Award);OpenDelta则是第一个不需要修改任何模型代码的参数高效微调工具包,目前也被ACL 2023 Demo Track接收。

参考文献
[1] Tom Brown et al. Language Models are Few-shot Learners. 2020.
[2] Timo Schick et al. Exploiting Cloze Questions for Few-Shot Text Classification and Natural Language Inference. EACL 2021.
[3] Tianyu Gao et al. Making Pre-trained Language Models Better Few-shot Learners. ACL 2021.
[4] Ning Ding et al. Parameter-efficient Fine-tuning for Large-scale Pre-trained Language Models. Nature Machine Intelligence.
[5] Neil Houlsby et al. Parameter-Efficient Transfer Learning for NLP. ICML 2020.
[6] Edward Hu et al. LoRA: Low-Rank Adaptation of Large Language Models. ICLR 2022.
[7] Ning Ding et al. OpenPrompt: An Open-Source Framework for Prompt-learning. ACL 2022 Demo.

方向五:大模型的可控生成问题

我几年前曾在某科普报告畅想过,自然语言处理将实现从对已有数据的消费(自然语言理解)到全新数据的生产(自然语言生成)的跃迁,这将是一次巨大变革。这波大模型技术变革极大地推动了AIGC的性能,成为研究与应用的热点。而如何精确地将生成的条件或约束加入到生成过程中,是大模型的重要探索方向。

在ChatGPT出现前,已经有很多可控生成的探索方案,例如利用提示学习中的提示词来控制生成过程。可控生成方面也长期存在一些开放性问题,例如如何建立统一的可控生成框架,如何建立科学客观的评测方法等等。

ChatGPT在可控生成方面取得了长足进步,现在可控生成有了相对成熟的做法:(1)通过指令微调(Instruction Tuning)[1, 2, 3] 提升大模型意图理解能力,使其可以准确理解人类输入并进行反馈;(2)通过提示工程编写合适的提示来激发模型输出。这种采用纯自然语言控制生成的做法取得了非常好的效果,对于一些复杂任务,我们还可以通过思维链(Chain-of-thought)[4] 等技术来控制模型的生成。

该技术方案的核心目标是让模型建立指令跟随(Instruction following)能力。最近研究发现,获得这项能力并不需要特别复杂的技术,只要收集足够多样化的指令数据进行微调即可获得不错的模型。这也是为什么最近涌现如此众多的定制开源模型。当然,如果要想达到更高的质量,可能还需要进行RLHF等操作。

为了促进此类模型的发展,我们实验室系统设计了一套流程来自动产生多样化,高质量的多轮指令对话数据UltraChat [5],并进行了细致的人工后处理。现在我们已经将英文数据全部开源,共计150余万条,是开源社区内数量最多的高质量指令数据之一,期待大家来使用训练出更强大的模型。

参考文献
[1] Jason wei et al. Finetuned language models are zero-shot learners. ICLR 2022.
[2] Victor Sanh et al. Multitask Prompted Training Enables Zero-Shot Task Generalization. ICLR 2022.
[3] Srinivasan Iyer. OPT-IML: Scaling Language Model Instruction Meta Learning through the Lens of Generalization. Preprint 2022.
[4] Jason Wei et al. Chain of thought prompting elicits reasoning in large language models. NeurIPS 2022.
[5] Ning Ding et al. Enhancing Chat Language Models by Scaling High-quality Instructional Conversations. Preprint 2023.

方向六:大模型的安全伦理问题

随着以ChatGPT为代表的大模型日益深入人类日常生活,大模型自身的安全伦理问题日益凸显。OpenAI为了使ChatGPT更好地服务人类,在这方面投入了大量精力。大量实验表明大模型对传统的对抗攻击、OOD样本攻击等展现出不错的鲁棒性[1],但在实际应用中还是会容易出现大模型被攻击的情况。

而且,随着ChatGPT的广泛应用,人们发现了很多新的攻击方式。例如最近出圈的ChatGPT越狱(jailbreak)[2](或称为提示注入攻击),利用大模型跟随用户指令的特性,诱导模型给出错误甚至有危险的回复。我们需要认识到,随着大模型能力越来越强大,大模型的任何安全隐患或漏洞都有可能造成比之前更严重的后果。如何预防和改正这些漏洞是ChatGPT出圈后的热点话题[3]。

另外,大模型生成内容和相关应用也存在多种多样的伦理问题。例如,有人利用大模型生成假新闻怎么办?如何避免大模型产生偏见和歧视内容?学生用大模型来做作业怎么办?这些都是在现实世界中实际发生的问题,尚无让人满意的解决方案,都是很好的研究课题。

具体而言,在大模型安全方面,我们发现,虽然大模型面向对抗攻击具有较好的鲁棒性,但特别容易被有意识地植入后门(backdoors),从而让大模型专门在某些特定场景下做出特定响应 [4],这是大模型非常重要的安全性问题。在这方面,我们过去研制了 OpenAttack 和 OpenBackdoor 两个工具包,旨在为研究人员提供更加标准化、易扩展的平台。

除此之外,越来越多的大模型提供方开始仅提供模型的推理API,这在一定程度上保护了模型的安全和知识产权。然而,这种范式也让模型的下游适配变得更加困难。为了解决这个问题,我们提出了一种在输出端对黑盒大模型进行下游适配的方法 Decoder Tuning,在理解任务上相比已有方法有200倍的加速和SOTA的效果,相关论文已被ACL 2023接收,欢迎试用。

在大模型伦理方面,如何实现大模型与人类价值观的对齐是重要的命题。此前研究表明模型越大会变得越有偏见[5],ChatGPT后兴起的RLHF、RLAIF等对齐算法可以很好地缓解这一问题,让大模型更符合人类偏好,生成质量更高。相比于预训练、指令微调等技术,基于反馈的对齐是很新颖的研究方向,其中强化学习也是有名的难以调教,有很多值得探讨的问题。

参考文献
[1] Wang et al. On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective. Arxiv 2023.
[2] Ali Borji. A Categorical Archive of ChatGPT Failures. Arxiv 2023.
[3] https://openai.com/blog/governance-of-superintelligence
[4] Cui et al. A Unified Evaluation of Textual Backdoor Learning: Frameworks and Benchmarks. NeurIPS 2022 Datasets & Benchmarks.
[5] Lin et al. TruthfulQA: Measuring How Models Mimic Human Falsehoods. ACL 2022.

方向七:大模型的认知学习问题

ChatGPT意味着大模型已经基本掌握人类语言,通过指令微调心领神会用户意图并完成任务。那么面向未来,我们可以考虑还有哪些人类独有的认知能力,是现在大模型所还不具备的呢?在我看来,人类高级认知能力体现在复杂任务的解决能力,有能力将从未遇到过的复杂任务拆解为已知解决方案的简单任务,然后基于简单任务的推理最终完成任务。而且在这个过程中,并不谋求将所有信息都记在人脑中,而是善于利用各种外部工具,“君子性非异也,善假于物也”。

这将是大模型未来值得探索的重要方向。现在大模型虽然在很多方面取得了显著突破,但是生成幻觉问题依然严重,在专业领域任务上面临不可信、不专业的挑战。这些任务往往需要专业化工具或领域知识支持才能解决。因此,大模型需要具备学习使用各种专业工具的能力,这样才能更好地完成各项复杂任务。

工具学习有望解决模型时效性不足的问题,增强专业知识,提高可解释性。而大模型在理解复杂数据和场景方面,已经初步具备类人的推理规划能力,大模型工具学习(Tool Learning)[1] 范式应运而生。该范式核心在于将专业工具与大模型优势相融合,实现更高的准确性、效率和自主性。目前,已有 WebGPT / WebCPM [2, 3] 等工作成功让大模型学会使用搜索引擎,像人一样网上冲浪,有针对性地获取有用信息进而完成特定任务。

最近,ChatGPT Plugins的出现使其支持使用联网和数学计算等工具,被称为OpenAI的“App Store”时刻。工具学习必将成为大模型的重要探索方向,为了支持开源社区对大模型工具学习能力的探索,我们开发了工具学习引擎 BMTools [4],它是一个基于大语言模型的开源可扩展工具学习平台,将各种工具(如文生图模型、搜索引擎、股票查询等)的调用流程都统一在了同一个框架下,实现了工具调用流程的标准化和自动化。开发者可以通过BMTools,使用给定的大模型API(如ChatGPT、GPT-4)或开源模型调用各类工具接口完成任务。

此外,现有大部分努力都集中在单个预训练模型的能力提升上,而在单个大模型已经比较能打的基础上,未来将开启从单体智能到多体智能的飞跃,实现多模型间的交互、协同或竞争。例如,最近斯坦福大学构建了一个虚拟小镇,小镇中的人物由大模型扮演 [5],在大模型的加持下,不同角色在虚拟沙盒环境中可以很好地互动或协作,展现出了一定程度的社会属性。多模型的交互、协同与竞争将是未来极具潜力的研究方向。目前,构建多模型交互环境尚无成熟解决方案,为此我们开发了开源框架AgentVerse [6],支持研究者通过简单的配置文件和几行代码搭建多模型交互环境。同时,AgentVerse与BMTools实现联动,通过在配置文件中添加工具链接,即可为模型提供工具,从而实现有工具的多模型交互。未来,我们甚至可能雇佣一个“大模型助理团队”来协同调用工具,共同解决复杂问题。

参考文献

[1] Qin, Yujia, et al. "Tool Learning with Foundation Models." arXiv preprint arXiv:2304.08354

(2023).
[2] Nakano, Reiichiro, et al. "Webgpt: Browser-assisted question-answering with human feedback." arXiv preprint arXiv:2112.09332

(2021).
[3] Qin, Yujia, et al. "WebCPM: Interactive Web Search for Chinese Long-form Question Answering." arXiv preprint arXiv:2305.06849

(2023).
[4] BMTools: https://github.com/OpenBMB/BMTools
[5] Park, Joon Sung, et al. "Generative agents: Interactive simulacra of human behavior." arXiv preprint arXiv:2304.03442

(2023).
[6] AgentVerse: https://github.com/OpenBMB/Agen

方向八:大模型的创新应用问题

大模型在众多领域的有着巨大的应用潜力。近年来《Nature》封面文章已经出现了五花八门的各种应用,大模型也开始在这当中扮演至关重要的角色[2,3]。这方面一个耳熟能详的工作就是AlphaFold,对整个蛋白质结构预测产生了天翻地覆的影响。

未来在这个方向上,关键问题就是如何将领域知识加入AI擅长的大规模数据建模以及大模型生成过程中,这是利用大模型进行创新应用的重要命题。

在这一点上,我们已经在法律智能、生物医学展开了一些探索。例如,早在2021年与幂律智能联合推出了首个中文法律智能预训练模型 Lawformer,能够更好地处理法律领域的长篇文书;我们也提出了能够同时建模化学表达式和自然语言的统一预训练模型KV-PLM,在特定生物医学任务上能够超过人类专家,相关成果曾发表在《自然-通讯》(Nature Communications)上并入选编辑推荐专栏(Editor's Highlights)。

参考文献
[1] Zeng, Zheni, et al. A deep-learning system bridging molecule structure and biomedical text with comprehension comparable to human professionals. Nature communications 13.1 (2022): 862.
[2] Jumper, John, et al. Highly accurate protein structure prediction with AlphaFold. Nature 596.7873 (2021): 583-589.
[3] Assael, Yannis, et al. Restoring and attributing ancient texts using deep neural networks. Nature 603.7900 (2022): 280-283.
[4] Xiao, et al. Lawformer: A pre-trained language model for Chinese legal long documents. AI Open, 2021.

方向九:大模型的数据和评估问题

纵观深度学习和大模型的发展历程,持续验证了“更多数据带来更多智能”(More Data, More Intelligence)原则的普适性。从多种模态数据中学习更加开放和复杂的知识,将会是未来拓展大模型能力边界及提升智能水平的重要途径。近期OpenAI的GPT-4[1]在语言模型的基础上拓展了对视觉信号的深度理解,谷歌的PaLM-E[2]则进一步融入了机器人控制的具身信号。概览近期的前沿动态,一个正在成为主流的技术路线是以语言大模型为基底,融入其他模态信号,从而将语言大模型中的知识和能力吸纳到多模态计算中。

在这个方面,我们的近期工作[3]发现通过在不同语言大模型基底间迁移视觉模块,可以极大降低预训练多模态大模型的开销。我们近期实验表明,基于刚开源的百亿中英双语基础模型CPM-Bee,能够支持很快训练得到多模态大模型,围绕图像在开放域下进行中英多模态对话,与人类交互有不错表现。面向未来,从更多模态更大规模数据中学习知识,是大模型技术发展的必由之路。另一方面,大模型建得越来越大,结构种类、数据源种类、训练目标种类也越来越多,这些模型的性能提升到底有多少?在哪些方面我们仍需努力?有关大模型性能评价的问题,我们需要一个科学的标准去判断大模型的长处和不足。

这在ChatGPT出现前就已经是重要的命题,像GLUE、SuperGLUE等评价集合都深远地影响了预训练模型的发展;对此,我们也曾在过去几年里推出过 CUGE 中文理解与生成评价集合 [4],通过逐层汇集模型在不同指标、数据集、任务和能力上的得分系统地评估模型在不同方面的表现。这种基于自动匹配答案评测的方式是大模型和生成式AI兴起前自然语言处理领域主要的评测方式,优点在于评价标准固定、评测速度快。而对于生成式AI,模型倾向于生成发散性强、长度较长的内容,使用自动化评测指标很难对生成内容的多样性、创造力进行评估,于是带来了新的挑战与研究机会,最近出现的大模型评价方式可以大致分为以下几类:

自动评价法:很多研究者提出了新的自动化评估方式,譬如通过选择题的形式[5],收集人类从小学到大学的考试题以及金融、法律等专业考试题目,让大模型直接阅读选项给出回答从而能够自动评测,这种方式比较适合评测大模型在知识储备、逻辑推理、语义理解等维度的能力。

模型评价法:也有研究者提出使用更加强大的大模型来做裁判[6]。譬如直接给GPT4等模型原始问题和两个模型的回答,通过编写提示词让GPT4扮演打分裁判,给两个模型的回答进行打分。这种方式会存在一些问题,譬如效果受限于裁判模型的能力,裁判模型会偏向于给某个位置的模型打高分等,但优势在于能够自动执行,不需要评测人员,对于模型能力的评判可以提供一定程度的参考。

人工评价法:人工评测是目前来看更加可信的方法,然而因为生成内容的多样性,如何设计合理的评价体系、对齐不同知识水平的标注人员的认知也成为了新的问题。目前国内外研究机构都推出了大模型能力的“竞技场”,要求用户对于相同问题不同模型的回答给出盲评。这里面也有很多有意思的问题,譬如在评测过程中,是否可以设计自动化的指标给标注人员提供辅助?一个问题的回答是否可以从不同的维度给出打分?如何从网络众测员中选出相对比较靠谱的答案?这些问题都值得实践与探索。

参考文献

[1] OpenAI. GPT-4 Technical Report. 2023.
[2] Driess D, Xia F, Sajjadi M S M, et al. PaLM-E: An embodied multimodal language model[J]. arXiv preprint arXiv:2303.03378

, 2023.
[3] Zhang A, Fei H, Yao Y, et al. Transfer Visual Prompt Generator across LLMs[J]. arXiv preprint arXiv:2305.01278

, 2023.
[4] Yao Y, Dong Q, Guan J, et al. Cuge: A chinese language understanding and generation evaluation benchmark[J]. arXiv preprint arXiv:2112.13610

, 2021.
[5] Chiang, Wei-Lin et al. Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality. 2023.
[6] Huang, Yuzhen et al. C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models. arXiv preprint arXiv:2305.08322

, 2023.

方向十:大模型的易用性问题

大模型已呈现出强烈的通用性趋势,具体体现为日益统一的Transformer网络架构,以及各领域日益统一的基础模型,这为建立标准化的大模型系统Big Model Systems),将人工智能能力低门槛地部署到各行各业带来可能性。受到计算机发展史上成功实现标准化的数据库系统和大数据分析系统的启发,我们应当将复杂的高效算法封装在系统层,而为系统用户提供易懂而强大的接口。

正是遵循这样的理念,我们从2021年开始提出“让大模型飞入千家万户”的目标建设 OpenBMB开源社区,全称Open Lab for Big Model Base,陆续发布了一套覆盖训练、微调、压缩、推理、应用的全流程高效计算工具体系,目前包括 高效训练工具 BMTrain、高效压缩工具 BMCook、低成本推理工具 BMInf、工具学习引擎 BMTools,等等。OpenBMB大模型系统完美支持我们自研的中文大模型CPM系列,最近也刚刚开源了最新版本百亿中英双语基础模型CPM-Bee。在我看来,大模型不仅要自身性能好,还要有强大工具体系让它好用,因此我们接下来将继续深耕 CPM 大模型和 OpenBMB 大模型工具体系,力争做中文世界最好的大模型系统。欢迎大家使用它们并提出建议和意见,共同建设这个属于我们大家的大模型开源社区。

—— End ——

来源:刘知远

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/646723.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

回归预测 | MATLAB实现基于GRU-AdaBoost门控循环单元结合AdaBoost多输入单输出回归预测

回归预测 | MATLAB实现基于GRU-AdaBoost门控循环单元结合AdaBoost多输入单输出回归预测 目录 回归预测 | MATLAB实现基于GRU-AdaBoost门控循环单元结合AdaBoost多输入单输出回归预测预测效果基本介绍模型描述程序设计参考资料 预测效果 基本介绍 1.MATLAB实现基于GRU-AdaBoost门…

单品GMV破千万,这些品类正在抖音热卖

优势品类及核心产品能更好触达消费者,以较低的成本让用户感知品牌,塑造品牌力。 抖音作为品牌最核心的线上渠道之一,该如何找到平台优势品类?制定品牌营销策略?有效提升产品销量呢? 近期,新抖上…

【CesiumJS入门】(4)加载3D Tiles并获取tileset

前言 本次,我们将写一个函数来加载3D Tiles数据, 3D Tiles数据的文档:CesiumGS/3d-tiles: Specification for streaming massive heterogeneous 3D geospatial datasets (github.com) 同时我们将获取加载成功后的tileset数据集(有…

Python 中错误 ImportError: No Module Named Sklearn

在 Python 中,sklearn 被用作机器学习工具,用于在回归、集群等方面创建程序。很多时候,导入它会抛出错误—— No module named sklearn。 这意味着由于安装错误、无效的 Python 或 pip 版本或其他问题,系统无法找到它。 Python中错误ImportError: No module named sklearn…

基于Java营业厅宽带系统设计实现(源码+lw+部署文档+讲解等)

博主介绍: ✌全网粉丝30W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战 ✌ 🍅 文末获取源码联系 🍅 👇🏻 精…

Karl Guttag评Vision Pro:比Quest Pro做了更多正确选择

上周苹果正式发布Vision Pro,尽管要到明年才发售,但光学领域的专业博主Karl Guttag也发表了自己的看法。他提到:目前受邀体验的媒体中要不是苹果粉丝、要不就是对AR、VR了解比较少,没有我看到“批判性思维”或太多对技术分析的内容…

MySQL常用操作(一)

创建表 create table user(id int unsigned primary key not null auto_increment,name varchar(50) unique not null,age tinyint not null,sex enum(M, W) not null )engineINNODB default charsetutf8;# 查看创建表语句 show create table user两种插入方式比较 # 方式1 i…

加速千行百业转型,华为如何为智能世界构建感知底座

导读:感知正成为行业数字化的新引擎。 我们正在迈进一个万物感知的时代。 日常生活中,感知已经无处不在。小到智能家居的控制系统,大到智慧城市虚实联动的数字孪生,感知是一切智能化的前提,也是行业数字化转型的基础。…

如何恢复被隔离的u盘数据?2种恢复u盘隔离数据的方法

很多时候,我们可能会因为各种原因导致U盘数据丢失,比如误删、格式化等情况。但最近有一位朋友咨询小编关于U盘文件被隔离的问题,他在使用U盘时发现有些文件被隔离了,想知道如何恢复。其实,U盘文件被隔离可能是由于存在…

记录--为什么推荐用svg而不用icon?

这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 使用背景: 1.因为svg图标在任何设备下都可以高清显示,不会模糊。而icon会在显卡比较低的电脑上有显示模糊的情况 2.svg图标在页面render时 速度会比icon稍微快一点 3.实现小程序…

Hightopo 使用心得(3)- 吸附与锚点

吸附与锚点是 HT for Web 中两个比较重要的概念。这两个概念在执行交互和动画时会经常被用到。 吸附,顾名思义,是一个节点吸附到另一个节点上。就像船底的贝类一样,通过吸附到船身,在船移动的时候自己也会跟着移动;而…

研究显示,超过一半的安全领导者对保护应用程序机密缺乏信心

这可能会让人感到意外,但秘密管理已经成为AppSec房间里的大象。虽然像常见漏洞和暴露(cve)这样的安全漏洞经常成为网络安全领域的头条新闻,但秘密管理仍然是一个被忽视的问题,可能会对企业安全产生直接而有影响的后果。 《卫报》最近的一项研…

AUTOSAR通信篇 - CAN网络通信(四:CanSM)

文章目录 简述CAN网络状态机触发器PowerOnCanSM_InitCanSM_DeInitT_START_WAKEUP_SOURCET_STOP_WAKEUP_SOURCET_FULL_COM_MODE_REQUESTT_SILENT_COM_MODE_REQUESTT_NO_COM_MODE_REQUESTT_BUS_OFF 防护条件G_FULL_COM_MODE_REQUESTEDG_SILENT_COM_MODE_REQUESTED 作用E_PRE_NOCO…

Question Log

Question Log 提示:记录一下平常遇到的坑 Question Log(★ > ) Question LogⅠ、★ > 使用VsCode构建Unity开发环境1.环境配置2.遇到的相关问题★.The .NET Core SDK cannot be located: A valid dotnet installation …

【Flutter】Flutter 使用splashscreen包创建启动页面

文章目录 一、 前言二、 什么是启动页面和 splashscreen三、 如何安装和使用 splashscreen四、 详细的代码示例:使用 splashscreen 创建启动页面五、 总结 一、 前言 大家好,今天我们要聊一聊如何在 Flutter 中使用 splashscreen 包来创建一个漂亮的启动…

使用Fiddler模拟网络

Fiddler已经预置提供了模拟Modem速度的选项,其位置位于: Rules->Performances->Simulate Modem Speeds 果你想学习Fiddler抓包工具,我这边给你推荐一套视频,这个视频可以说是B站播放全网第一的Fiddler抓包工具教程&#x…

【道友避坑】yolov5视频抽帧构建数据集

写在前面:本篇博客记录了yolov5视频抽帧构建数据集的全过程。 目录 一、 视频材料准备 二、数据集构建 三、运行数据集 一、 视频材料准备 1. 在yolov5-master下创建mydata目录,然后创建video目录和images目录、labels目录 2. 下载一个一两分钟的视频…

数据安全保护:DataSecurity Plus助您防止数据泄露

导言: 在数字化时代,数据安全已成为企业和个人必须高度关注的重要议题。数据泄露可能导致重大损失,包括财务损失、声誉受损以及违反法规的风险。为了帮助组织有效地防止数据泄露,DataSecurity Plus是一款强大的解决方案&#xff…

Android PopupWindow+RecyclerView 实现二级联动筛选

前言 这篇文章主要的功能是利用 PopupWindow 和 RecyclerView 实现条件筛选包括二级联动筛选,主要是仿小红书里的筛选功能而写的一个 Demo 效果如下,代码通俗易懂,保姆级教程 一、使用步骤 1.引入库 api com.github.CymChad:BaseRecycler…

smart Java——BIO、NIO、AIO的工作流程和代码实现

文章目录 〇、前置知识1.套接字2.线程池 一、BIO1.工作流程2.代码实现3.缺点 二、NIO(基于轮训)1.相比于BIO的优化2.工作流程3.代码实现 三、AIO(基于订阅-通知)1.工作流程2.代码实现 参考 〇、前置知识 1.套接字 在计算机网络编…