LLMs参考资料第一周以及BloombergGPT特定领域的训练 Domain-specific training: BloombergGPT

news2024/12/26 13:33:27

1. 第1周资源

以下是本周视频中讨论的研究论文的链接。您不需要理解这些论文中讨论的所有技术细节 - 您已经看到了您需要回答讲座视频中的测验的最重要的要点。

然而,如果您想更仔细地查看原始研究,您可以通过以下链接阅读这些论文和文章。

1.1 Transformer架构

  • 注意力就是你需要的 《Attention is All You Need》
  • 本文介绍了Transformer架构,以及核心的“自注意力”机制。这篇文章是LLMs的基础。
  • BLOOM:BigScience 176B模型《BLOOM: BigScience 176B Model 》
  • BLOOM是一个开源的LLM,拥有176B的参数(类似于GPT-4),以开放透明的方式进行训练。在这篇论文中,作者详细讨论了用于训练模型的数据集和过程。您还可以在这里查看模型的高级概述。
  • 向量空间模型 《Vector Space Models》
  • DeepLearning.AI的自然语言处理专项课程系列课程,讨论了向量空间模型的基础及其在语言建模中的应用。

1.2 预训练和缩放法则

  • 神经语言模型的缩放法则《Scaling Laws for Neural Language Models》
  • OpenAI的研究人员进行的实证研究,探索了大型语言模型的缩放法则。

1.3 模型架构和预训练目标

  • 什么语言模型架构和预训练目标最适合Zero-shot泛化?《What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization?》
  • 本文研究了大型预训练语言模型中的建模选择,并确定了零射击泛化的最佳方法。
  • HuggingFace Tasks 和 Model Hub
  • 使用HuggingFace库处理各种机器学习任务的资源集合。
  • LLaMA:开放和高效的基础语言模型《LLaMA: Open and Efficient Foundation Language Models》
  • Meta AI提出的高效LLMs文章(他们的13 Billion模型在大多数基准测试上的性能超过了拥有175Billion参数的GPT3)

1.4 缩放法则和计算最佳模型

  • 语言模型是少射击学习者《Language Models are Few-Shot Learners》
  • 本文研究了大型语言模型中少射击学习的潜力。
  • 训练计算最佳大型语言模型 《Training Compute-Optimal Large Language Models》
  • DeepMind的研究,评估训练LLMs的最佳模型大小和令牌数量。也被称为“Chinchilla论文”。
  • BloombergGPT:金融领域的大型语言模型 《BloombergGPT: A Large Language Model for Finance》
  • 专门为金融领域训练的LLM,是一个试图遵循chinchilla法则的好例子。

2. BloombergGPT

在这里插入图片描述

在这里插入图片描述
BloombergGPT是由Bloomberg开发的大型仅解码器语言模型。它使用了包括新闻文章、报告和市场数据在内的广泛金融数据集进行预训练,以增强其对金融的理解,并使其能够生成与金融相关的自然语言文本。数据集在上面的图片中显示。

在BloombergGPT的训练过程中,作者使用了Chinchilla缩放法则来指导模型中的参数数量和训练数据的量,以令牌为单位进行测量。Chinchilla的建议由图片中的Chinchilla-1、Chinchilla-2和Chinchilla-3线表示,我们可以看到BloombergGPT与其非常接近。

尽管团队可用的训练计算预算的推荐配置是500亿参数和1.4万亿令牌,但在金融领域获得1.4万亿令牌的训练数据证明是具有挑战性的。因此,他们构建了一个只包含7000亿令牌的数据集,少于计算最佳值。此外,由于提前停止,训练过程在处理5690亿令牌后终止。

BloombergGPT项目是一个很好的例子,说明了如何为增加领域特异性进行模型预训练,以及可能迫使您在计算最佳模型和训练配置之间做出权衡的挑战。

您可以在这里阅读BloombergGPT的文章。

参考

  • https://www.coursera.org/learn/generative-ai-with-llms/supplement/Adylf/domain-specific-training-bloomberggpt
  • https://www.coursera.org/learn/generative-ai-with-llms/supplement/kRX5c/week-1-resources

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/920352.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

NoSuchModuleError: Can‘t load plugin: sqlalchemy.dialects:clickhouse解决方案

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

HDLBits-Verilog学习记录 | Verilog Language-Vectors

文章目录 11.vectors | vector012.vectors in more detail | vector113.Vector part select | Vector214.Bitwise operators | Vectorgates15.Four-input gates | Gates416.Vector concatenation operator | Vector317.Vector reversal 1 | Vectorr18. Replication operator | …

HTML常见标签详解

HTML 标签 一 . HTML 结构1. 认识 HTML 标签2. HTML 文件的基本结构3. 标签层次结构 二 . HTML常见标签注释标签标题标签: h1~h6段落标签: p换行标签 :br格式化标签图片标签: img超链接标签: a列表标签无语义标签: div & span 三 . 表格标签1. 基本使用2. 合并单元格 四 . …

轮转数组——C语言

题目: 解法1:把最后一位数字移动到数组的第一位,然后将第二位开始的每一位往前移动一位 这种方法的时间复杂度O(N^2) 空间复杂度O(1) rotate(int* arr, int n, int k) {k % n;int i 0;for (i …

实战项目 在线学院springcloud调用篇3

一 springcloud与springboot的关系 1.1 关系 1.2 版本关系 二 案例工程 2.1 工程结构 2.2 调用关系 2.3 注册的配置 1.nacos的搭建部署 2.vod,edu项目的注册nacos 3.查看

如何使用Wireshark进行网络流量分析?

如何使用Wireshark进行网络流量分析。Wireshark是一款强大的网络协议分析工具,可以帮助我们深入了解网络通信和数据流动。 1. 什么是Wireshark? Wireshark是一个开源的网络协议分析工具,它可以捕获并分析网络数据包,帮助用户深入…

11、vue3

一、为什么要学 Vue3 1.1 为什么要学 Vue3 1.2 Vue3的优势 1.3 Vue2 选项式 API vs Vue3 组合式API Vue3 组合式API vs Vue2 选项式 API 二、create-vue搭建Vue3项目 2.1 认识 create-vue 2.2 使用create-vue创建项目 前提环境条件 已安装 16.0 或更高版本的 Node.js node -…

iOS 如何对整张图分别局部磨砂,并完全贴合

官方磨砂方式 - (UIVisualEffectView *)effectView{if(!_effectView){UIBlurEffect *blur [UIBlurEffect effectWithStyle:UIBlurEffectStyleLight];_effectView [[UIVisualEffectView alloc] initWithEffect:blur];}return _effectView; }使用这种方式对一张图的上半部分和…

Andriod Studio不支持项目指定的Gradle插件版本

1,问题描述: 我之前的项目执行编译之类的是OK的,download下来最新的代码之后,发现很多编译错误,用gradle更新一下依赖包,发现出现下面的错误 The project is using an incompatible version (AGP 8.1.0) …

基于微信小程序的仓储进销存管理系统_r275i

随着科学研究的不断深入,有关仓储的各种信息量不断成倍增长。面对庞大的信息量,就需要有仓储管理系统来提高管理工作的效率。通过这样的系统,我们可以做到信息的规范管理和快速查询,从而减少了管理方面的工作量。 建立仓储管理系…

Spark大数据分析与实战笔记(第一章 Scala语言基础-1)

文章目录 章节概要1.1 初识Scala1.1.1 Scala的概述1.1.2 Scala的下载安装1.1.3 在IDEA开发工具中下载安装Scala插件1.1.4 开发第一个Scala程序 章节概要 Spark是专为大规模数据处理而设计的快速通用的计算引擎,它是由Scala语言开发实现的,关于大数据技术…

Java可视化物联网智慧工地SaaS平台源码:人脸识别考勤

基于微服务JavaSpring Cloud Vue UniApp MySql实现的智慧工地云平台源码 智慧工地是指利用云计算、大数据、物联网、移动互联网、人工智能等技术手段,为建筑施工现场提供智能硬件及物联网平台的解决方案,以实现建筑工地的实时化、可视化、多元化、智慧化…

oracle存储过程调试

oracle如果存储过程比较复杂,我们要定位到错误就比较困难,那么可以存储过程的调试功能 先按简单的存储过程做个例子,就是上次做的存储过程(proc_test) 1、先在数据库的procedures文件找到我们之前创建存储过程 2、选…

C语言实现:从sm2 PEM文件中提取公钥和私钥因子

我们知道使用openssl命令行从国密sm2的pem中提公钥私钥因子的命令行如下: openssl ec -in sm2_test_priv.pem -text -noout 从私钥pem提取私钥openssl ec -pubin -in sm2_test_pub.pem -text -noout 从公钥pem提取公钥 以私钥提取为例,那么以上部分&am…

新加坡GAIR 2023:AI 绽放之时

2023年8月14日,第七届GAIR全球人工智能与机器人大会,在新加坡乌节大酒店拉开帷幕。 大会共开设10个主题论坛,聚焦大模型时代下的AIGC、Infra、生命科学、教育,SaaS、web3、跨境电商等领域的变革创新。这是国内首个出海的AI顶级论坛…

绘制区块链之链:解码去中心化、安全性和透明性的奇迹

区块链技术以其去中心化、安全性和透明性等特点在全球范围内引起了广泛的关注和兴趣。区块链是一种分布式账本技术,通过将数据以不可篡改的方式链接在一起,创建了一个安全可靠的数据库。这种革命性的技术正在许多领域中发挥作用,包括加密货币…

【Linux】临界资源和临界区

目录 一、临界资源 二、如何实现对临界资源的互斥访问 1、互斥量 2、信号量 3、临界区 三、临界区 四、进程进入临界区的调度原则 一、临界资源 概念:临界资源是一次仅允许一个进程使用的共享资源,如全局变量等。 二、如何实现对临界资源的互斥访问 …

【Java】基础练习(十)

1.判断邮箱 输入一个电子邮箱,判断是否是正确电子邮箱地址。 正确的邮箱地址: 必须包含 字符,不能是开头或结尾必须以 .com结尾和.com之间必须有其他字符 (1) Email类: package swp.kaifamiao.codes.Java.d0823; /** 输入一个…

从互联网到车企做测试,什么体会?

互联网软件测试,能跨到车企做测试么? 这是我之前在某个群里划水看到一位小伙伴提出过的问题,当时我并没有回答,不过这个主题我倒是记在了草稿里,因为我自己就是这样的经历,留着后面有时间写一些内容分享一…

了解混淆矩阵和方差分析分数之间的差异

一、说明 开始都本文之前,需要读者预先知道两个概念,方差分析、混淆矩阵;本文将对两者的异同点进行分析。 二、混淆矩阵、方差分析 2.1 混淆矩阵 混淆矩阵就像一个图表,可以帮助我们了解机器学习模型的表现如何。想象一下&#xf…