【书生·浦语大模型实战营第二期】学习笔记1

【书生·浦语大模型实战营第二期】学习笔记1

news2026/2/15 13:44:42

1. Introduction

开源llm举例：LLaMA 、Qwen 、Mistral 和Deepseek
大型语言模型的发展包括预训练、监督微调（SFT）和基于人类反馈的强化学习（RLHF）等主要阶段
InternLM2的显著特点

采用分组查询注意力（GQA）来在推断长序列时减少内存占用
预训练：4k个上下文文本——高质量的32k文本——位置编码外推
监督微调（SFT）和基于人类反馈的强化学习（RLHF）
条件在线RLHF（COOL RLHF）
多轮Proximal Policy Optimization（PPO）缓解奖励作弊问题

2. Infrastructure

2.1 InternEvo

在预训练、有监督微调和RLFH期间使用的训练框架InternEvo
特点：数据、张量、序列和管道并行技术
多种Zero Redundancy Optimizer (ZeRO, 2020)策略、FlashAttention技术、混合精度训练（Mixed Precision Training）
MFU：模型计算量利用率
减少通信开销：自适应分片技术（如Full-Replica、Full Sharding和Partial-Sharding）
通信与计算的重叠
长序列训练：InternEvo将GPU内存管理分解为四个并行维度（数据、张量、序列和管道）和三个分片维度（参数、梯度和优化器状态）
容错性：异步保存机制、冷存储

2.2 Model Structure

LLaMA的结构设计原则：在Transformer的基础架构上，将LayerNorm替换为RMSNorm，采用SwiGLU作为激活函数，分组查询注意力（GQA）

3. Pre-train

详细描述如何为预训练准备文本、代码和长文本数据

3.1 Pre-training Data

文本数据
以JSON Lines (jsonl)格式存储
处理步骤包括：数据格式化、应用启发式统计规则清洗数据、使用局部敏感哈希（LSH）方法进行数据去重、采用复合安全策略过滤数据

代码数据

通过训练代码数据，有可能提升推理能力

数据源分布
格式清理：转换为markdown格式
代码去重
质量筛选
依赖排序

长文本数据
数据过滤管道：长度选择、统计过滤器、语言模型perplexity过滤器

3.2 Pre-training Settings

分词Tokenization
预训练中超参数设置
AdamW优化器、余弦退火学习率衰减策略

3.3 Pre-training Phases

三个阶段：
不超过4k长度的预训练语料库——不超过32k长度的预训练数据——特定能力增强数据

4. Alignment

4.1 有监督微调

将数据样本转换为 ChatML 格式

4.2 COOL RLFH

用Proximal Policy Optimization (PPO)方法设置reward函数
RLHF存在的问题

偏好冲突：有益和无害
奖励作弊（reward hacking）的问题

条件在线RLHF
整合多个偏好且减少奖励作弊
作用机理：将不同的系统提示（system prompt）应用于不同类型的偏好

如何减少奖励作弊：
RLHF分为两个路径：
快速路径（Fast Path）用于立即、有针对性的改进
慢速路径（Slow Path）则用于长期、全面地优化奖励模型

4.3 长上下文微调

一类来自书籍的长序列文本，另一类是来自GitHub仓库的数据

4.4 工具增加的llm

代码解释器(<|interpreter|>)和外部插件(<|plugin|>)

5. 评估和分析

5.1 总体性能

使用OpenCompass进行评估

5.2 在下游任务上的表现

(1) 全面测试,(2) 语言和知识,(3) 推理和数学,(4) 多种编程语言编程,(5) 长文本建模,(6) 工具利用

5.3 对齐表现

6. 结论

参考资料

InternLM技术报告

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1550310.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

蓝桥杯基础练习汇总详细解析（三）——字母图形、01字符串、闰年判断（详细解题思路、代码实现、Python）

蓝桥杯基础练习汇总详细解析（三）——字母图形、01字符串、闰年判断（详细解题思路、代码实现、Python）

试题基础练习字母图形提交此题评测记录资源限制内存限制：256.0MB C/C时间限制：1.0s Java时间限制：3.0s Python时间限制：5.0s 问题描述利用字母可以组成一些美丽的图形，下面给出了一个例子&#…

阅读更多...

web开发发展历程-前端、后端、消息队列、后端架构演进

web开发发展历程-前端、后端、消息队列、后端架构演进

文章目录摘要主要内容不同的时代对应不同的技术前端技术的中间阶段-单页面应用前后端分离后端技术演化-云计算平台总体趋势反应式编程消息队列发展史kafka，rocketmq，pulsar网易后端架构演进架构瓶颈数据库瓶颈服务器瓶颈数据库缓存瓶颈-缓存击穿、雪崩…

阅读更多...

Spring Boot：Web开发之三大组件的整合

Spring Boot：Web开发之三大组件的整合

Spring Boot 前言Spring Boot 整合 ServletSpring Boot 整合 FilterSpring Boot 整合 Listener 前言在 Web 开发中，Servlet 、Filter 和 Listener 是 Java Web 应用中的三大组件。Servlet 是 Java 代码，通过 Java 的 API 动态的向客户端输出内容。Filt…

阅读更多...

7.3*3卷积核生成

7.3*3卷积核生成

1.卷积核在数字图像处理中的各种边沿检测、滤波、腐蚀膨胀等操作都离不开卷积核的生成。下面介绍如何生成各种3X3的卷积核。为后面的数字图像操作打下基础。由于图像经过卷积操作后会减少两行两列，因此在生成卷积核的时候一般会对图像进行填充，填充…

阅读更多...

day 36 贪心算法 part05● 435. 无重叠区间 ● 763.划分字母区间 ● 56. 合并区间

day 36 贪心算法 part05● 435. 无重叠区间 ● 763.划分字母区间 ● 56. 合并区间

一遍过。首先把区间按左端点排序，然后右端点有两种情况。假设是a区间，b区间。。。这样排列的顺序，那么假设a[1]>b[0],如果a[1]>b[1]，就应该以b[1]为准，否则以a[1]为准。 class Solution { public:static bo…

阅读更多...

一个基于.NET Core构建的简单、跨平台、模块化的商城系统

一个基于.NET Core构建的简单、跨平台、模块化的商城系统

前言今天大姚给大家分享一个基于.NET Core构建的简单、跨平台、模块化、完全开源免费（MIT License）的商城系统：Module Shop。商城后台管理端功能商品：分类、品牌、单位、选项（销售属性）、属性、属性模…

阅读更多...

人脸68关键点与K210疲劳检测

人脸68关键点与K210疲劳检测

目录人脸68关键点检测检测闭眼睁眼双眼关键点检测计算眼睛的闭合程度： 原理: 设置阈值进行判断实时监测和更新拓展：通过判断上下眼皮重合程度去判断是否闭眼检测嘴巴是否闭合提取嘴唇上下轮廓的关键点计算嘴唇上下轮廓关键点之间的距…

阅读更多...

LangChain入门：2.OpenAPI调用ChatGPT模型

LangChain入门：2.OpenAPI调用ChatGPT模型

快速入门本篇文章正式进入LangChain的编码阶段，今天实现的功能是使用OpenAPI调用ChatGPT模型来进行文本问答。 1. 申请OpenAPI的访问令牌这里介绍两种获取到OpenAPI访问令牌的方式，大家按照自己需求进行选择，之后的文章我会基于第二种选…

阅读更多...

政安晨：【深度学习神经网络基础】（二）—— 神经元与层

政安晨：【深度学习神经网络基础】（二）—— 神经元与层

政安晨的个人主页：政安晨欢迎 👍点赞✍评论⭐收藏收录专栏: 政安晨的机器学习笔记希望政安晨的博客能够对您有所裨益，如有不足之处，欢迎在评论区提出指正！ 神经元是深度学习神经网络中的基本单元，模拟了…

阅读更多...

淘宝详情数据采集（商品上货，数据分析，属性详情，价格监控），海量数据值得get

淘宝详情数据采集（商品上货，数据分析，属性详情，价格监控），海量数据值得get

淘宝详情数据采集涉及多个环节，包括商品上货、数据分析、属性详情以及价格监控等。在采集这些数据时，尤其是面对海量数据时，需要采取有效的方法和技术来确保数据的准确性和完整性。以下是一些关于淘宝详情数据采集的建议： 请求示…

阅读更多...

DevSecOps平台架构系列-互联网企业私有化DevSecOps平台典型架构

DevSecOps平台架构系列-互联网企业私有化DevSecOps平台典型架构

目录一、概述二、私有化DevSecOps平台建设思路 2.1 采用GitOps公有云建设 2.2 采用GitOps私有云建设 2.3 总结三、GitOps及其生态组件 3.1 采用GitOps的好处 3.1.1 周边生态系统齐全 3.1.2 便于自动化的实现 3.1.3 开发人员属性GitOps 3.2 GitOps部分生态组件介绍…

阅读更多...

红黑树的Java实现

红黑树的Java实现

红黑树的Java实现文章目录红黑树的Java实现一、概述二、添加元素三、删除元素四、完整代码总结一、概述红黑树也是一种二叉平衡搜索树，向比与AVL树，是一种弱平衡树。因为AVL树是通过平衡因子，左右树的高度相差不能大于1来保证平衡&#…

阅读更多...

实测梳理一下kafka分区分组的作用

实测梳理一下kafka分区分组的作用

清空topickafka-topics.sh --bootstrap-server localhost:9092 --delete --topic second创建分区kafka-topics.sh --create --bootstrap-server localhost:9092 --replication-factor 1 --partitions 3 --topic second发kafka-console-producer.sh --bootstrap-server localhos…

阅读更多...

ospf实验

ospf实验

基础配置如上图所示，按照上图所示的配置，俩个路由器之间按照12.12.12.X/30网段配置，左端的路由器和交换机之间按照192.168.1.X网段配置，右端的路由器和交换机之间按照192.168.2.X网段配置，下面的两个pc机按照所对应的…

阅读更多...

Java 学习和实践笔记（48）：怎样用二维数组来存储表格数据？

Java 学习和实践笔记（48）：怎样用二维数组来存储表格数据？

怎样用数组的方式，来存储下面这个表格的数据？ 示例代码如下： import java.util.Arrays;public class Test001 {public static void main(String[] args) {/*object类对象是类层次结构的根。每个类都有Object作为超类。所有对象，包…

阅读更多...

使用llamafile 构建本地大模型运用

使用llamafile 构建本地大模型运用

安装 https://github.com/Mozilla-Ocho/llamafile 下载大模型文件，选择列表中任意一个 wget https://huggingface.co/jartine/llava-v1.5-7B-GGUF/resolve/main/llava-v1.5-7b-q4.llamafile?downloadtrue https://github.com/Mozilla-Ocho/llamafile?tabre…

阅读更多...

软件部署资源计算工具：精确评估资源需求

软件部署资源计算工具：精确评估资源需求

软件部署资源计算工具：精确评估资源需求在当今快速发展的信息技术时代，软件部署已成为企业运营不可或缺的一部分。然而，一个常见的挑战是如何精确评估软件部署所需的资源。资源评估不仅关系到软件的性能和稳定性，还直接影响到成…

阅读更多...

区块链食品溯源案例实现(二)

区块链食品溯源案例实现(二)

引言随着前端界面的完成，我们接下来需要编写后端代码来与区块链网络进行交互。后端将负责处理前端发送的请求，调用智能合约的方法获取食品溯源信息，并将结果返回给前端。通过前后端的整合，我们可以构建一个食品溯源系统&#xf…

阅读更多...

【第三方登录】Twitter

创建应用 APPID 和相关回调配置重新设置api key 和 api secret 设置回调和网址还有 APP的类型拿到ClientID 和 Client Secret 源码实现获取Twitter 的登录地址 public function twitterUrl() {global $db,$request,$comId;require "inc/twitter_client/twitte…

阅读更多...

2018年亚马逊云科技推出基于Arm的定制芯片实例

2018年亚马逊云科技推出基于Arm的定制芯片实例

2018年，亚马逊云技术推出了基于Arm的定制芯片。据相关数据显示，基于Arm的性价比比基于x86的同类实例高出40%。这打破了对 x86 的依赖，开创了架构的新时代，现在能够支持多种配置的密集计算任务。这些举措为亚马逊云技术的其他创…

阅读更多...

推荐文章

最新文章