【LLM】大模型值得探索的十个研究方向

news2025/1/1 22:25:44

note

  1. 基础理论:大模型的基础理论是什么?

  2. 网络架构:Transformer是终极框架吗?

  3. 高效计算:如何使大模型更加高效?

  4. 高效适配:大模型如何适配到下游任务?

  5. 可控生成:如何实现大模型的可控生成?

  6. 安全可信:如何改善大模型中的安全伦理问题?

  7. 认知学习:如何使大模型获得高级认知能力?

  8. 创新应用:大模型有哪些创新应用?

  9. 数据评价:如何评估大模型的性能?

  10. 易用性:如何降低大模型的使用门槛?

文章目录

  • note
  • 方向一:大模型的基础理论问题
  • 方向二:大模型的网络架构问题
  • 方向三:大模型的高效计算问题
  • 方向四:大模型的高效适配问题
  • 方向五:大模型的可控生成问题
  • 方向六:大模型的安全伦理问题
  • 方向七:大模型的认知学习问题
  • 方向八:大模型的创新应用问题
  • 方向九:大模型的数据和评估问题
  • 方向十:大模型的易用性问题
  • Reference

读了清华刘致远老师zh上的回答后,简单做下这十个问题的总结,具体完整内容参考:https://www.zhihu.com/question/595298808/answer/3047369015。

方向一:大模型的基础理论问题

随着全球大炼模型不断积累的丰富经验数据,人们发现大模型呈现出很多与以往统计学习模型、深度学习模型、甚至预训练小模型不同的特性:

  • 如Few/Zero-Shot Learning、In-Context Learning、Chain-of-Thought能力;
  • 已被学术界关注但还未被公众广泛关注的如Emergence、Scaling Prediction、Parameter-Efficient Learning(我们称为Delta Tuning)、稀疏激活和功能分区特性,等等。

在这里插入图片描述

  • What——大模型学到了什么:参考论文[1]
  • How—— 如何训好大模型:随着模型规模不断增大(Scaling)的过程,如何掌握训练大模型的规律 [2],其中包含众多问题,例如数据如何准备和组合,如何寻找最优训练配置,如何预知下游任务的性能,等等 [3]。这些是 How 的问题。
  • Why——大模型为什么好:这方面已经有很多非常重要的研究理论[4,5,6],包括过参数化等理论,但终极理论框架的面纱仍然没有被揭开。

仓库 BMPrinciples [https://github.com/openbmb/BMPrinciples],收集和记录大模型发展过程中的现象。

参考文献:
[1] Wei et al. Emergent Abilities of Large Language Models. TMLR 2022.
[2] Kaplan et al. Scaling Laws for Neural Language Models. 2020
[3] OpenAI.GPT-4 technical report. 2023.
[4] Nakkiran et al. Deep double descent: Where bigger models and more data hurt. ICLR 2020.
[5] Bubeck et al. A universal law of robustness via isoperimetry. NeurIPS 2021.
[6] Aghajanyan et al. Intrinsic dimensionality explains the effectiveness of language model fine-tuning. ACL 2021.

方向二:大模型的网络架构问题

能否找到比Transformer更好、更高效的网络框架。
在这里插入图片描述
有学者受到数学相关方向的启发,提出非欧空间Manifold网络框架,尝试将某些几何先验知识放入模型,这些都是最近比较新颖的研究方向。
在这里插入图片描述

参考文献:
[1] Chen et al. Fully Hyperbolic Neural Networks. ACL 2022.
[2] Gu et al. Efficiently Modeling Long Sequences with Structured State Spaces. ICLR 2022.
[3] Gu et al. Combining recurrent, convolutional, and continuous-time models with linear state space layers. NeurIPS 2021.
[4] Weinan, Ee. A proposal on machine learning via dynamical systems. Communications in Mathematics and Statistics.
[5] Maass, Wolfgang. Networks of spiking neurons: the third generation of neural network models. Neural networks.

方向三:大模型的高效计算问题

需要建设更加高效的分布式训练算法体系,这方面很多高性能计算学者已经做了大量探索,例如,通过模型并行[9]、流水线并行[8]、ZeRO-3[1] 等模型并行策略将大模型参数分散到多张 GPU 中,通过张量卸载、优化器卸载等技术[2]将 GPU 的负担分摊到更廉价的 CPU 和内存上,通过重计算[7] 方法降低计算图的显存开销,通过混合精度训练[10]利用 Tensor Core 提速模型训练,基于自动调优算法 [11, 12] 选择分布式算子策略等 。

目前,模型加速领域已经建立了很多有影响力的开源工具,国际上比较有名的有微软DeepSpeed、英伟达Megatron-LM,国内比较有名的是OneFlow、ColossalAI等。而在这方面OpenBMB社区推出了BMTrain,能够将GPT-3规模大模型训练成本降低90%以上。
在这里插入图片描述
大模型一旦训练好准备投入使用,推理效率也成为重要问题,一种思路是将训练好的模型在尽可能不损失性能的情况下对模型进行压缩。这方面技术包括模型剪枝、知识蒸馏、参数量化等等。大模型呈现的稀疏激活现象也能够用来提高模型推理效率,基本思想是根据稀疏激活模式对神经元进行聚类分组,每次输入只调用非常少量的神经元模块即可完成计算,我们把这个算法称为MoEfication [5]。

参考文献:
[1] Samyam Rajbhandari et al. ZeRO: memory optimizations toward training trillion parameter models. SC 2020.
[2] Jie Ren et al. ZeRO-Offload: Democratizing Billion-Scale Model Training. USENIX ATC 2021.
[3] Dettmers et al. LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale. NeurIPS 2022.
[4] Zhang et al. BMCook: A Task-agnostic Compression Toolkit for Big Models. EMNLP 2022 Demo.
[5] MoEfication: Transformer Feed-forward Layers are Mixtures of Experts. Findings of ACL 2022.
[6] The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in Transformers. ICLR 2023.
[7] Training Deep Nets with Sublinear Memory Cost. 2016.
[8] Fast and Efficient Pipeline Parallel DNN Training. 2018.
[9] Megatron-lm: Training multi-billion parameter language models using model parallelism. 2019.
[10] Mixed Precision Training. 2017.
[11] Unity: Accelerating {DNN} Training Through Joint Optimization of Algebraic Transformations and Parallelization. OSDI 2022.
[12] Alpa: Automating Inter- and {Intra-Operator} Parallelism for Distributed Deep Learning. OSDI 2022.

方向四:大模型的高效适配问题

  • 模型适配:对齐,更好应用于下有任务
  • 方案一是提示学习(Prompt Learning),即从训练和下游任务的形式上入手,通过为输入添加提示(Prompts)[1,2,3] 来将各类下游任务转化为预训练中的语言模型任务,实现对不同下游任务以及预训练-下游任务之间形式的统一,从而提升模型适配的效率。实际上,现在流行的指令微调(Instruction Tuning)就是使用提示学习思想的具体案例。
  • 方案二是参数高效微调(Parameter-effcient Tuning 或Delta Tuning)[4, 5, 6],基本思想是保持绝大部分的参数不变,只调整大模型里非常小的一组参数,这能够极大节约大模型适配的存储和计算成本,而且当基础模型规模较大(如十亿或百亿以上)时参数高效微调能够达到与全参数微调相当的效果。目前,参数高效微调还没有获得像提示微调那样广泛的关注,而实际上参数高效微调更反映大模型独有特性。

参考文献:
[1] Tom Brown et al. Language Models are Few-shot Learners. 2020.
[2] Timo Schick et al. Exploiting Cloze Questions for Few-Shot Text Classification and Natural Language Inference. EACL 2021.
[3] Tianyu Gao et al. Making Pre-trained Language Models Better Few-shot Learners. ACL 2021.
[4] Ning Ding et al. Parameter-efficient Fine-tuning for Large-scale Pre-trained Language Models. Nature Machine Intelligence.
[5] Neil Houlsby et al. Parameter-Efficient Transfer Learning for NLP. ICML 2020.
[6] Edward Hu et al. LoRA: Low-Rank Adaptation of Large Language Models. ICLR 2022.
[7] Ning Ding et al. OpenPrompt: An Open-Source Framework for Prompt-learning. ACL 2022 Demo.

方向五:大模型的可控生成问题

在这里插入图片描述
在ChatGPT出现前,已经有很多可控生成的探索方案,例如利用提示学习中的提示词来控制生成过程。可控生成方面也长期存在一些开放性问题,例如如何建立统一的可控生成框架,如何建立科学客观的评测方法等等。

ChatGPT在可控生成方面取得了长足进步,现在可控生成有了相对成熟的做法:

  • (1)通过指令微调(Instruction Tuning)[1, 2, 3] 提升大模型意图理解能力,使其可以准确理解人类输入并进行反馈;
  • (2)通过提示工程编写合适的提示来激发模型输出。这种采用纯自然语言控制生成的做法取得了非常好的效果,对于一些复杂任务,我们还可以通过思维链(Chain-of-thought)[4] 等技术来控制模型的生成。

该技术方案的核心目标是让模型建立指令跟随(Instruction following)能力。最近研究发现,获得这项能力并不需要特别复杂的技术,只要收集足够多样化的指令数据进行微调即可获得不错的模型。这也是为什么最近涌现如此众多的定制开源模型。当然,如果要想达到更高的质量,可能还需要进行RLHF等操作。

参考文献:
[1] Jason Wei et al. Finetuned language models are zero-shot learners. ICLR 2022.
[2] Victor Sanh et al. Multitask Prompted Training Enables Zero-Shot Task Generalization. ICLR 2022.
[3] Srinivasan Iyer. OPT-IML: Scaling Language Model Instruction Meta Learning through the Lens of Generalization. Preprint 2022.
[4] Jason Wei et al. Chain of thought prompting elicits reasoning in large language models. NeurIPS 2022.
[5] Ning Ding et al. Enhancing Chat Language Models by Scaling High-quality Instructional Conversations. Preprint 2023.

方向六:大模型的安全伦理问题

大模型生成内容和相关应用也存在多种多样的伦理问题。例如,有人利用大模型生成假新闻怎么办?如何避免大模型产生偏见和歧视内容?学生用大模型来做作业怎么办?

在大模型伦理方面,如何实现大模型与人类价值观的对齐是重要的命题。此前研究表明模型越大会变得越有偏见[5],ChatGPT后兴起的RLHF、RLAIF等对齐算法可以很好地缓解这一问题,让大模型更符合人类偏好,生成质量更高。相比于预训练、指令微调等技术,基于反馈的对齐是很新颖的研究方向,其中强化学习也是有名的难以调教,有很多值得探讨的问题。

参考文献:
[1] Wang et al. On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective. Arxiv 2023.
[2] Ali Borji. A Categorical Archive of ChatGPT Failures. Arxiv 2023.
[3] https://openai.com/blog/governance-of-superintelligence
[4] Cui et al. A Unified Evaluation of Textual Backdoor Learning: Frameworks and Benchmarks. NeurIPS 2022 Datasets & Benchmarks.
[5] Lin et al. TruthfulQA: Measuring How Models Mimic Human Falsehoods. ACL 2022.

方向七:大模型的认知学习问题

ChatGPT Plugins的出现使其支持使用联网和数学计算等工具,被称为OpenAI的“App Store”时刻。工具学习必将成为大模型的重要探索方向,为了支持开源社区对大模型工具学习能力的探索,开发了工具学习引擎 BMTools [4],它是一个基于大语言模型的开源可扩展工具学习平台,将各种工具(如文生图模型、搜索引擎、股票查询等)的调用流程都统一在了同一个框架下,实现了工具调用流程的标准化和自动化。开发者可以通过BMTools,使用给定的大模型API(如ChatGPT、GPT-4)或开源模型调用各类工具接口完成任务。

此外,现有大部分努力都集中在单个预训练模型的能力提升上,而在单个大模型已经比较能打的基础上,未来将开启从单体智能到多体智能的飞跃,实现多模型间的交互、协同或竞争。例如,最近斯坦福大学构建了一个虚拟小镇,小镇中的人物由大模型扮演 [5],在大模型的加持下,不同角色在虚拟沙盒环境中可以很好地互动或协作,展现出了一定程度的社会属性。多模型的交互、协同与竞争将是未来极具潜力的研究方向。

参考文献:
[1] Qin, Yujia, et al. “Tool Learning with Foundation Models.” arXiv preprint arXiv:2304.08354 (2023).
[2] Nakano, Reiichiro, et al. “Webgpt: Browser-assisted question-answering with human feedback.” arXiv preprint arXiv:2112.09332 (2021).
[3] Qin, Yujia, et al. “WebCPM: Interactive Web Search for Chinese Long-form Question Answering.” arXiv preprint arXiv:2305.06849 (2023).
[4] BMTools: https://github.com/OpenBMB/BMTools
[5] Park, Joon Sung, et al. “Generative agents: Interactive simulacra of human behavior.” arXiv preprint arXiv:2304.03442 (2023).
[6] AgentVerse: https://github.com/OpenBMB/AgentVerse

方向八:大模型的创新应用问题

如在法律智能、生物医学展开了一些探索。例如,早在2021年与幂律智能联合推出了首个中文法律智能预训练模型 Lawformer,能够更好地处理法律领域的长篇文书;也提出了能够同时建模化学表达式和自然语言的统一预训练模型KV-PLM,在特定生物医学任务上能够超过人类专家,相关成果曾发表在《自然-通讯》(Nature Communications)上并入选编辑推荐专栏(Editor’s Highlights)。

参考文献:
[1] Zeng, Zheni, et al. A deep-learning system bridging molecule structure and biomedical text with comprehension comparable to human professionals. Nature communications 13.1 (2022): 862.
[2] Jumper, John, et al. Highly accurate protein structure prediction with AlphaFold. Nature 596.7873 (2021): 583-589.
[3] Assael, Yannis, et al. Restoring and attributing ancient texts using deep neural networks. Nature 603.7900 (2022): 280-283.
[4] Xiao, et al. Lawformer: A pre-trained language model for Chinese legal long documents. AI Open, 2021.

方向九:大模型的数据和评估问题

最近出现的大模型评价方式可以大致分为以下几类:

  • 自动评价法:很多研究者提出了新的自动化评估方式,譬如通过选择题的形式[5],收集人类从小学到大学的考试题以及金融、法律等专业考试题目,让大模型直接阅读选项给出回答从而能够自动评测,这种方式比较适合评测大模型在知识储备、逻辑推理、语义理解等维度的能力。
  • 模型评价法:也有研究者提出使用更加强大的大模型来做裁判[6]。譬如直接给GPT4等模型原始问题和两个模型的回答,通过编写提示词让GPT4扮演打分裁判,给两个模型的回答进行打分。这种方式会存在一些问题,譬如效果受限于裁判模型的能力,裁判模型会偏向于给某个位置的模型打高分等,但优势在于能够自动执行,不需要评测人员,对于模型能力的评判可以提供一定程度的参考。
  • 人工评价法:人工评测是目前来看更加可信的方法,然而因为生成内容的多样性,如何设计合理的评价体系、对齐不同知识水平的标注人员的认知也成为了新的问题。目前国内外研究机构都推出了大模型能力的“竞技场”,要求用户对于相同问题不同模型的回答给出盲评。这里面也有很多有意思的问题,譬如在评测过程中,是否可以设计自动化的指标给标注人员提供辅助?一个问题的回答是否可以从不同的维度给出打分?如何从网络众测员中选出相对比较靠谱的答案?这些问题都值得实践与探索。

在这里插入图片描述

参考文献:
[1] OpenAI. GPT-4 Technical Report. 2023.
[2] Driess D, Xia F, Sajjadi M S M, et al. PaLM-E: An embodied multimodal language model[J]. arXiv preprint arXiv:2303.03378, 2023.
[3] Zhang A, Fei H, Yao Y, et al. Transfer Visual Prompt Generator across LLMs[J]. arXiv preprint arXiv:2305.01278, 2023.
[4] Yao Y, Dong Q, Guan J, et al. Cuge: A chinese language understanding and generation evaluation benchmark[J]. arXiv preprint arXiv:2112.13610, 2021.
[5] Chiang, Wei-Lin et al. Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality. 2023.
[6] Huang, Yuzhen et al. C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models. arXiv preprint arXiv:2305.08322, 2023.

方向十:大模型的易用性问题

在这里插入图片描述

OpenBMB开源社区,全称Open Lab for Big Model Base,陆续发布了一套覆盖训练、微调、压缩、推理、应用的全流程高效计算工具体系,目前包括 高效训练工具 BMTrain、高效压缩工具 BMCook、低成本推理工具 BMInf、工具学习引擎 BMTools,等等。

Reference

[1] 刘知远:大模型值得探索的十个研究方向

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/605823.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ChatGPT有关的模块知多少?

本文由 大侠(AhcaoZhu)原创,转载请声明。 链接: https://blog.csdn.net/Ahcao2008 ChatGPT有关的模块知多少? 🧊摘要🧊ChatGPT 开发库清单 🧊摘要 本文介绍了基于OpenAI ChatGPT 的API 开发的python 模块库。【原创&am…

STM32cubemx定时外部模式测量10M以上频率

STM32cubemx定时外部模式测量10M以上频率 本文讲解利用定时器的外部时钟功能,巧妙测量高频外部信号频率。范围可以到高达30M以上。 所需工具: 开发板:STM32F103RCT6STM32CubeMXIDE: Keil-MDK 文章目录 STM32cubemx定时外部模式测量10M以上频率原理讲解…

【Java技术专题】「Guava开发指南」手把手教你如何进行使用Guava工具箱进行开发系统实战指南(Optional篇)

Guava相关的介绍 Guava工程包含了许多被Google的Java项目广泛依赖的核心库。我们希望通过本文档为Guava中最流行和最强大的功能提供更具可读性和解释性的说明。 本教程是中级教程,适合 Guava 中级开发者的进阶学习。 学习Guava前的准备工作 学习目标和计划&#xf…

Python学习笔记 - 探索集合Set

尊敬的各位,我是Mr.数据杨,非常高兴和你们一起走进Python的世界。今天,让我们一起探讨Python中神奇的“集合”。你们是否读过《三国演义》?你们应该记得那场赫赫有名的“桃园三结义”吧?那让我们以此为例,来…

Windows动态链接库的生成和使用

工程需要,最近在编一组Windows上的动态链接库给Python调用。之前做过Linux下C动态库的编译,并提供给Python调用,Windows下的编译跟Linux还是有些差距,因此花了一点时间跑通,在这里记录一下。 为了完整对比&#xff0c…

Hive on Spark环境搭建

Hive 引擎简介 Hive 引擎包括:默认 MR、tez、spark 最底层的引擎就是MR (Mapreduce)无需配置,Hive运行自带 Hive on Spark:Hive 既作为存储元数据又负责 SQL 的解析优化,语法是 HQL 语法,执行…

(2.54mm)TSM-120-04-S-DV-P-TR方形接线柱针脚、ADRF5545ABCPZN(通用)射频前端 SPDT

TSM-120-04-S-DV-P-TR (2.54mm) 表面安装.025"方形接线柱针脚是板对板连接器,有单排、双排或三排方形接线柱端子可供选择,带直通、直角或混合技术引脚。这些高度可靠的坚固针脚有垂直和水平两种方向,在混合气流 (MFG) 环境中可使用10年。…

【C语言实现简易ATM】上个C语言程序设计课,我成产品经理了?

博主简介:Hello大家好呀,我是陈童学,一个与你一样正在慢慢前行的人。 博主主页:陈童学哦 所属专栏:C语言程序设计实验项目 如果本文对你有所帮助的话,还希望可以点赞👍收藏📂支持一下…

2023年京东618满300减50是全品类吗?满减叠卷怎么用?

2023年京东618满300减50是全品类吗?满减叠卷怎么用? 京东平台上有着比较多的卖家开店,在对店铺进行运营的过程中,很多卖家都会参与平台的一些活动,这样能够有效的将产品推广出去,对于618大促活动也是属于其中活动之一&#xff0…

代码随想录第52天

1.最长递增子序列 接下来,我们依然用动规五部曲来详细分析一波: dp[i]的定义 本题中,正确定义dp数组的含义十分重要。 dp[i]表示i之前包括i的以nums[i]结尾的最长递增子序列的长度 为什么一定表示 “以nums[i]结尾的最长递增子序” &…

软考A计划-电子商务设计师-专业英语

点击跳转专栏>Unity3D特效百例点击跳转专栏>案例项目实战源码点击跳转专栏>游戏脚本-辅助自动化点击跳转专栏>Android控件全解手册点击跳转专栏>Scratch编程案例 👉关于作者 专注于Android/Unity和各种游戏开发技巧,以及各种资源分享&am…

高压侧电流检测电路及仿真

高压侧电流检测电路仿真 电路图如下 主要设计思想,通过两组电阻将高压侧的共模电压降到运放(此处也可以使用单电源运放)的工作电压范围内。然后在进行二次放大。主要放大倍数取决于第二级放大侧电阻比值。因此如果需要减小功耗,可…

JAVA数组基础

目录 一、使用方式 1-动态初始化 ①先声明数组 ② 创建数组 ③分配方式 二、使用方式 2-静态初始化(直接在声明的同时初始化{ } ) 三、数组使用注意事项和细节 四、数组两种初始化方式都是将内存空间分配到堆上面的 一、使用方式 1-动态初始化 …

助力金融科技创新 同创永益受邀参加2023 INNO CHINA中国产业创新大会

2023 INNO CHINA中国产业创新大会-金融科技创新论坛于2023年5月10日在北京大学中关村新园召开。本次金融科技创新论坛由北大创新评论主办,同创永益受邀参加。来自银行、保险、证券等金融行业的多位专家、学者齐聚大会现场,共同探讨金融科技发展新趋势、金…

复合型人才

一、为什么需要复合型人才 在社会的大环境影响下,不同行业所展现的交叉属性越来越强,因此单一型人才已经不满足当前的企业需求,复合型人才逐渐成为市场上的主流:即不仅要“精”通,更要“全”面。 人才需求是由市场的…

长尾词挖掘,如何选择精准的长尾词优化?

长尾词的挖掘也是一门大学问,它存在多种不同的方法。最常用的方法是把关键词直接放搜索引擎的搜索框搜索和使用长尾词挖掘工具这两种。 以运动水壶为例。 关键词直接放搜索引擎的搜索框搜索,结果如下: 使用长尾词挖掘工具,…

【C++笔记总结】面向对象编程——封装 |C++

文章目录 前言一、类的封装1.1、公有,私有,保护1.2、类的定义和类的实现相分离1.3、构造函数,析构函数,拷贝构造函数1.4、静态数据成员和静态成员函数1.5、友元函数,友元类 二、类的实现——对象2.1、对象的静态分配&a…

【SpringCloud——Elasticsearch(中)】

一、DSL查询语法以及整合JAVA代码使用 以下操作案例均基于上篇的hotel索引库及其数据进行。 1、查询基本语法 GET /indexName/_search {"query": {"查询类型":{"查询条件":"条件值"}} } 2、查询所有 2.1、DSL语句 #查询所有 GET …

Java并发编程面试题——线程池

目录 1.什么是线程池?有什么优缺点?2.创建线程池的方式有哪些?2.1.通过 Executor 框架的工具类 Executors 来创建不同类型的线程池2.2.使用 ThreadPoolExecutor 类自定义线程池2.3.注意事项 3.自定义线程池时有哪些参数?它们各有说…

笔试强训 Day 7

选择题: 1.在()情况下适宜采用 inline 定义内联函数 A 函数体含有循环语句 B 函数体含有递归语句C 函数代码少、频繁调用 D 函数代码多,不常调用 复习一下内联函数 在编译阶段,会将内联函数展开 —— 将函数调用替换成…