DeepSeek专题:DeepSeek-V1核心知识点速览

news2025/2/22 12:21:23

AIGCmagic社区知识星球是国内首个以AIGC全栈技术与商业变现为主线的学习交流平台,涉及AI绘画、AI视频、大模型、AI多模态、数字人以及全行业AIGC赋能等100+应用方向。星球内部包含海量学习资源、专业问答、前沿资讯、内推招聘、AI课程、AIGC模型、AIGC数据集和源码等干货。

AIGCmagic社区知识星球

截至目前,星球内已经累积了2000+AICG时代的前沿技术、干货资源以及学习资源;涵盖了600+AIGC行业商业变现的落地实操与精华报告;完整构建了以AI绘画、AI视频、大模型、AI多模态以及数字人为核心的AIGC时代五大技术方向架构,其中包含近500万字完整的AIGC学习资源与实践经验。


论文题目:《DeepSeek LLM:Scaling Open-Source Language Models with Longtermism》

发表时间:2024年1月

论文地址:https://arxiv.org/pdf/2401.02954v1

在2024年1月前后的时间,基于解码器的Transformer大型语言模型(LLMs)的发展迅速,成为实现人工智能(AGI)的重要途径。尽管闭源产品如ChatGPT、Claude和Bard在计算资源和标注成本上具有优势,但开源LLMs的性能仍需提升。

本项目主要探索模型的缩放定律(scaling laws),并在两个广泛使用的模型配置(7B和67B)上进行扩展。通过预训练、监督微调(SFT)和直接偏好优化(DPO),提升模型在代码、数学和推理等领域的性能。

scaling laws:即模型性能与其规模(如参数数量)、训练数据集大小以及用于训练的计算资源之间存在的一种可预测的关系。这种关系通常表现为随着这些因素的增长,模型性能会按照一定的幂律进行改善。

DeepSeek LLM 67B在一系列基准测试中超越了LLaMA-2 70B,特别是在代码、数学和推理领域表现突出。此外,开放式评估揭示出DeepSeek LLM 67B聊天模型与GPT-3.5相比展现出更优的性能。


方法概述

DeepSeek LLM,旨在通过长期视角推动开源语言模型的发展。

数据收集与预处理:首先,开发了一个包含2万亿token的数据集,并对其进行去重、过滤和重新混合去重阶段通过跨多个dump进行去重,过滤阶段通过详细的语义和语言学评估来增强数据密度,重新混合阶段则通过增加代表性不足领域的存在来平衡数据。

表1|各种常见 Crawl dumps 去重比率


模型架构

DeepSeek LLM的微观设计主要遵循LLaMA的设计,采用Pre-Norm结构和RMSNorm函数,使用SwiGLU作为前馈网络的激活函数。宏设计上,DeepSeek LLM 7B有30层,而67B有95层,以优化训练和推理。

表2 | DeepSeek LLM系列模型的详细规格


超参数选择

初始标准差为0.006,使用AdamW优化器,超参数为β1=0.9,β2=0.95,权重衰减为0.1。采用多步学习率调度器,学习率在2000个预热步后达到最大值,然后逐步降低。

图1 | 使用不同学习率调度器或不同参数设置的学习率调度器的训练损失曲线。该模型大小为16亿参数,在包含1000亿个token的数据集上进行训练。

缩放定律

通过实验建模了计算预算C与最佳批量大小和学习率之间的幂律关系,公式如下:

图3 | 批量大小和学习率的缩放曲线。灰色圆圈代表泛化误差超过最小值不超过0.25%的模型。虚线代表拟合较小模型的幂律。蓝色星号代表DeepSeek LLM 7B和67B


模型和数据缩放

采用IsoFLOP剖面方法拟合扩展曲线,公式如下:

图4 | IsoFLOP曲线和最优模型/数据分配。IsoFLOP曲线中的指标是验证集上每个字节的比特数。最优模型/数据缩放曲线中的虚线代表拟合较小模型(灰色圆圈)的幂律

图5 | 性能缩放曲线。指标是验证集上的每秒比特数(bits-per-byte)。虚线代表拟合较小模型(灰色圆圈)的幂律。蓝色星号代表DeepSeek LLM 7B和67B。它们的性能符合缩放曲线规律。


论文总结

该论文提出了DeepSeek LLM,一个专注于长期主义(longtermism)的开源大规模语言模型框架,旨在通过高效的资源利用和可持续的技术路径推动语言模型的持续发展。论文的核心观点是,当前语言模型的开发往往过度依赖短期算力堆砌,而忽视了长期可扩展性、数据效率与生态协作。DeepSeek LLM通过以下创新实现这一目标:

  1. 高效训练架构:设计了一种动态稀疏化混合专家模型(Dynamic Sparse MoE),在保持模型性能的同时显著降低训练和推理成本;

  2. 数据长期价值挖掘:提出数据生命周期管理策略,通过多阶段数据筛选、知识蒸馏和增量学习机制,最大化数据集的复用效率;

  3. 可持续扩展框架:开发了参数可插拔的模块化架构,支持模型能力的渐进式扩展而无需全量重新训练;

  4. 开源生态协同:构建去中心化的开源协作平台,允许研究社区以分布式方式贡献算力、数据和模型组件。

实验表明,DeepSeek LLM在同等参数量下相比主流开源模型(如LLaMA、Falcon)实现了15-30%的推理效率提升,并在长上下文理解、多任务泛化等场景中表现优异。论文强调,通过技术路径的长期规划与开源协作,可以突破当前LLM发展对集中式算力的依赖,为人工智能的民主化发展提供新范式。这一工作为开源社区的可持续发展提供了重要的方法论和实践参考。


推荐阅读

AIGCmagic社区介绍:

2025年《AIGCmagic社区知识星球》五大AIGC方向全新升级!

AI多模态核心架构五部曲:

AI多模态模型架构之模态编码器:图像编码、音频编码、视频编码

AI多模态模型架构之输入投影器:LP、MLP和Cross-Attention

AI多模态模型架构之LLM主干(1):ChatGLM系列

AI多模态模型架构之LLM主干(2):Qwen系列

AI多模态模型架构之LLM主干(3):Llama系列  

2025年《AIGCmagic社区知识星球》五大AIGC方向全新升级!

AI多模态模型架构之模态生成器:Modality Generator

AI多模态实战教程:

AI多模态教程:从0到1搭建VisualGLM图文大模型案例

AI多模态教程:Mini-InternVL1.5多模态大模型实践指南

AI多模态教程:Qwen-VL升级版多模态大模型实践指南

AI多模态实战教程:面壁智能MiniCPM-V多模态大模型问答交互、llama.cpp模型量化和推理


技术交流

加入「AIGCmagic社区」,一起交流讨论,涉及AI视频、AI绘画、数字人、多模态、大模型、传统深度学习、自动驾驶等多个不同方向,可私信或添加微信号:【lzz9527288】,备注不同方向邀请入群!

更多精彩内容,尽在AIGCmagic社区」,关注了解全栈式AIGC内容!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2299567.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot+shardingsphere实现按月分表功能

SpringBootshardingsphere实现按月分表功能 文章目录 前言 ShardingSphere 是一套开源的分布式数据库中间件解决方案,旨在简化数据库分片、读写分离、分布式事务等复杂场景的管理。它由 Apache 软件基金会支持,广泛应用于需要处理大规模数据的系统中 一…

教程 | 从零部署到业务融合:DeepSeek R1 私有化部署实战指南

文章目录 1. 什么是 DeepSeek R1?a. 主要介绍a. 版本区别 2. 部署资源要求a. 硬件资源要求 3. 本地安装DeepSeek-R1a. 为什么选择本地部署?b. 部署工具对比c. 演示环境配置d. Ollama安装流程 4. 可视化工具a. 工具对比b. Open-WebUI部署 5. AI API应用a.…

分布式 NewSQL 数据库(TiDB)

TiDB 是一个分布式 NewSQL 数据库。它支持水平弹性扩展、ACID 事务、标准 SQL、MySQL 语法和 MySQL 协议,具有数据强一致的高可用特性,是一个不仅适合 OLTP 场景还适合 OLAP 场景的混合数据库。 TiDB是 PingCAP公司自主设计、研发的开源分布式关系型数据…

C语言-章节 1:变量与数据类型 ——「未初始化的诅咒」

在那神秘且广袤无垠的「比特大陆」上,阳光奋力地穿过「内存森林」中错综复杂的代码枝叶缝隙,洒下一片片斑驳陆离、如梦似幻的光影。林间的空气里,弥漫着一股浓郁的十六进制锈蚀味,仿佛在诉说着这片森林中隐藏的古老秘密。 一位零基…

HTML的入门

一、HTML HTML(HyperText Markup Language,超文本标记语言)是一种用来告知浏览器如何组织页面的标记语言。 超文本:就是超越了文本;HTML不仅仅可以用来显示文本(字符串、数字之类),还可以显示视频、音频等…

闭源大语言模型的怎么增强:提示工程 检索增强生成 智能体

闭源大语言模型的怎么增强 提示工程 检索增强生成 智能体 核心原理 提示工程:通过设计和优化提示词,引导大语言模型进行上下文学习和分解式思考,激发模型自身的思维和推理能力,使模型更好地理解和生成文本,增强其泛用性和解决问题的能力。检索增强生成:结合检索的准确…

【图像加密解密】空间混沌序列的图像加密解密算法复现(含相关性检验)【Matlab完整源码 2期】

1、说明 本文给出详细完整代码、完整的实验报告和PPT。 环境:MATLAB2019a 复现文献:[1]孙福艳,吕宗旺.Digital image encryption with chaotic map lattices[J].Chinese Physics B,2011,20(04):136-142. 2、部分报告内容 3 部分源码与运行步骤 3.1 部…

QxOrm生成json

下载Qxorm-1.5版本 使用vs打开项目,直接生成即可: lib目录中会生成dll和lib文件 新建Qt项目使用Qxorm: 将QxOrm中上面三个目录拷贝到新建的Qt项目中 pro文件添加使用QxOrm第三方库 INCLUDEPATH $$PWD/include/ LIBS -L"$$PWD/lib" LIBS…

ASP.NET Core Web应用(.NET9.0)读取数据库表记录并显示到页面

1.创建ASP.NET Core Web应用 选择.NET9.0框架 安装SqlClient依赖包 2.实现数据库记录读取: 引用数据库操作类命名空间 创建查询记录结构类 查询数据并返回数据集合 3.前端遍历数据并动态生成表格显示 生成结果:

uniapp商城之首页模块

文章目录 前言一、自定义导航栏1.静态结构2.修改页面配置3.组件安全区适配二、通用轮播组件1. 静态结构组件2.自动导入全局组件3.首页轮播图数据获取三、首页分类1.静态结构2.首页获取分类数据并渲染四、热门推荐1.静态结构2.首页获取推荐数据并渲染3.首页跳转详细推荐页五、猜…

以若依移动端版为基础,实现uniapp的flowable流程管理

1.前言 此代码是若依移动端版为基础,实现flowable流程管理,支持H5、APP和微信小程序三端。其中,APP是在安卓在雷电模拟器环境下完成的,其他环境未测试,此文章中所提及的APP均指上述环境。移动端是需要配合若依前后端分…

C++:高度平衡二叉搜索树(AVLTree) [数据结构]

目录 一、AVL树 二、AVL树的理解 1.AVL树节点的定义 2.AVL树的插入 2.1更新平衡因子 3.AVL树的旋转 三、AVL的检查 四、完整代码实现 一、AVL树 AVL树是什么?我们对 map / multimap / set / multiset 进行了简单的介绍,可以发现,这几…

2D 游戏艺术、动画和光照

原文:https://unity.com/resources/2d-game-art-animation-lighting-for-artists-ebook 笔记 用Tilemap瓷砖大小为1单元,人物大小在0.5~2单元 PPU :单位像素 pixels per unit 2160 4K分辨率/ 正交相机size*2 完整屏幕显示像素点 有骨骼动…

4、C#基于.net framework的应用开发实战编程 - 测试(四、二) - 编程手把手系列文章...

四、 测试; 四.二、实际运行; 在应用调试完毕,Bug基本解决的时候就需要对应用进行实际运行来进行查看使用体验及分发的准备工作。 1、 运行设置; 在启动项目上右键属性,点击生成,将顶部的配置改…

栈与队列(C语言版)

文章目录 栈与队列1. 栈基本操作实现(基于链表)代码运行结果 应用场景 2. 队列基本操作实现代码运行结果 应用场景 栈与队列 1. 栈 栈是一种操作受限的线性结构。操作受限体现在,栈只能在一端添加和删除元素,符合后进先出 ( LIFO ) 的特性,…

【算法专场】哈希表

目录 前言 哈希表 1. 两数之和 - 力扣(LeetCode) 算法分析 算法代码 面试题 01.02. 判定是否互为字符重排 ​编辑算法分析 算法代码 217. 存在重复元素 算法分析 算法代码 219. 存在重复元素 II 算法分析 算法代码 解法二 算法代码 算法…

【设计模式】【行为型模式】迭代器模式(Iterator)

👋hi,我不是一名外包公司的员工,也不会偷吃茶水间的零食,我的梦想是能写高端CRUD 🔥 2025本人正在沉淀中… 博客更新速度 👍 欢迎点赞、收藏、关注,跟上我的更新节奏 🎵 当你的天空突…

mac 意外退出移动硬盘后再次插入移动硬盘不显示怎么办

第一步:sudo ps aux | grep fsck 打开mac控制台输入如下指令,我们看到会出现两个进程,看进程是root的这个 sudo ps aux|grep fsck 第二步:杀死进程 在第一步基础上我们知道不显示u盘的进程是:62319,我们…

如何下载AndroidStudio的依赖的 jar,arr文件到本地

一、通过jitpack.io 下载依赖库 若需要下载 com.github.xxxxx:yy-zzz:0.0.2 的 jar则 https://jitpack.io/com/github/xxxxx/yy-zzz/0.0.2/ 下会列出如下build.logyy-zzz-0.0.2.jaryy-zzz-0.0.2.pomyy-zzz-0.0.2.pom.md5yy-zzz-0.0.2.pom.sha1jar 的下载路径为https://jitpack…

CEF132编译指南 MacOS 篇 - 构建 CEF (六)

1. 引言 经过前面一系列的精心准备,我们已经完成了所有必要的环境配置和源码获取工作。本篇作为 CEF132 编译指南系列的第六篇,将详细介绍如何在 macOS 系统上构建 CEF132。通过配置正确的编译命令和参数,我们将完成 CEF 的构建工作&#xf…