DeepSeek图解10页PDF

news2025/2/11 9:12:22

以前一直在关注国内外的一些AI工具,包括文本型、图像类的一些AI实践,最近DeepSeek突然爆火,从互联网收集一些资料与大家一起分享学习。

本章节分享的文件为网上流传的DeepSeek图解10页PDF,免费附件链接给出。

1 本地

1  本地部署并运行DeepSeek

1.1 为什么要在本地部署DeepSeek

在本地搭建大模型(如DeepSeek)具有多个重要的优势,比如:
1. 保护隐私与数据安全。数据不外传:本地运行模型可以完全避免数据上传至云端,确保敏感信息不被第三方访问。
2. 可定制化与优化。支持微调(Fine-tuning):可以根据特定业务需求对模型进行微调,以适应特定任务,如行业术语、企业内部知识库等。
3. 离线运行,适用于无网络环境。可在离线环境下运行:适用于无互联网连接或网络受限的场景。提高系统稳定性:即使云服务宕机,本地大模型依然可以正常工作,不受外部因素影响。

1.2 DeepSeek 本地部署三个步骤

一共只需要三步,就能做到DeepSeek 在本地运行并与它对话。

第一步,使用的是ollama 管理各种不同大模型,ollama 比较直接、干净,一键下载后安装就行,安装过程基本都是下一步。


Ollama的官网下载地址:Ollama

支持macos、windows、linux多端的安装包管理

Ollama windows安装_ollama 下载-CSDN博客安装windows下的ollama可以参考以上链接写的较为详细:Ollama windows安装_ollama 下载-CSDN博客

安装后,打开命令窗口,输入ollama,然后就能看到它的相关指令,一共10 个左右的命令,如下图2所示,就能帮我们管理好不同大模型:

第二步,命令窗口输入:ollama pull deepseek-r1:1.5b,下载大模型deepseekr1到我们自己的电脑,如下图3所示:

至此在我们本地电脑,DeepSeek 大模型就下载到我们本地电脑,接下来第三步就可以直接使用和它对话了。在cmd(Windows 电脑) 或terminal(苹果电脑) 执行命令:ollama run deepseek-r1:1.5b,很快就能进入对话界面,如下图4所示:

1.3 DeepSeek 本地运行使用演示

基于上面步骤搭建完成后,接下来提问DeepSeek 一个问题:请帮我分析Python 编程如何从零开始学习?,下面是它的回答,首先会有一个think标签,这里面嵌入的是它的思考过程,不是正式的回复:

等我们看到另一个结束标签think 后,表明它的思考已经结束,下面一行就是正式回答,如下图6所示:

2 DeepSeek 零基础必知

        为了更深入理解DeepSeek-R1,首先需要掌握LLM 的基础知识,包括其工作原理、架构、训练方法。
        近年来,人工智能(AI)技术的快速发展催生了大型语言模型((LargeLanguage Model, LLM))的兴起。LLM 在自然语言处理(NLP)领域发挥着越来越重要的作用,广泛应用于智能问答、文本生成、代码编写、机器翻译等任务。LLM 是一种基于深度学习的人工智能模型,其核心目标是通过预测下一个单词来理解和生成自然语言。训练LLM 需要大量的文本数据,使其能够掌握复杂的语言模式并应用于不同任务。接下来,咱们先从较为基础的概念开始。

2.1 LLM 基础概念
  

模型参数。其中比较重要的比如deepseek-r1:1.5b, qwen:7b, llama:8b,这里的1.5b, 7b、8b 代表什么?b 是英文的billion,意思是十亿,7b 就是70 亿,8b 就是80 亿,70 亿、80 亿是指大模型的神经元参数(权重参数weight+bias)的总量。目前大模型都是基于Transformer 架构,并且是很多层的Transformer结构,最后还有全连接层等,所有参数加起来70 亿,80 亿,还有的上千亿。

通用性更强。大模型和我们自己基于某个特定数据集(如ImageNet、20News-Group)训练的模型在本质上存在一些重要区别。主要区别之一,大模型更加通用,这是因为它们基于大量多样化的数据集进行训练,涵盖了不同领域和任务的数据。这种广泛的学习使得大模型具备了较强的知识迁移能力和多任务处理能力,从而展现出“无所不知、无所不晓”的特性。相比之下,我们基于单一数据集训练的模型通常具有较强的针对性,但其知识范围仅限于该数据集的领域或问题。因此,这类模型的应用范围较为局限,通常只能解决特定领域或单一任务的问题。Scaling Laws 大家可能在很多场合都见到过。它是一个什么法则呢?大模型之所以能基于大量多样化的数据集进行训练,并最终“学得好”,核心原因之一是Scaling Laws(扩展规律)的指导和模型自身架构的优势。Scaling Laws 指出参数越多,模型学习能力越强;训练数据规模越大、越多元化,模型最后就会越通用;即使包括噪声数据,模型仍能通过扩展规律提取出通用的知识。而Transformer 这种架构正好完美做到了Scaling Laws,Transformer 就是自然语言处理领域实现扩展规律的最好的网络结构。亿。
  

Scaling Laws 大家可能在很多场合都见到过。它是一个什么法则呢?大模型之所以能基于大量多样化的数据集进行训练,并最终“学得好”,核心原因之一是Scaling Laws(扩展规律)的指导和模型自身架构的优势。Scaling Laws 指出参数越多,模型学习能力越强;训练数据规模越大、越多元化,模型最后就会越通用;即使包括噪声数据,模型仍能通过扩展规律提取出通用的知识。而Transformer 这种架构正好完美做到了Scaling Laws,Transformer 就是自然语言处理领域实现扩展规律的最好的网络结构。

2.2 Transformer 基础架构

LLM 依赖于2017 年Google 提出的Transformer 模型,该架构相比传统的RNN(递归神经网络)和LSTM(长短时记忆网络)具有更高的训练效率和更强的长距离依赖建模能力。Transformer 由多个关键组件组成:1. 自注意力机制(Self-Attention):模型在处理文本时,会自动关注句子中的重要单词,理解不同词语间的联系。2. 多头注意力(Multi-Head Attention):使用多个注意力头同时分析不同的语义信息,使得模型的理解能力更强。3. 前馈神经网络(FFN):非线性变换模块,提升模型的表达能力。4. 位置编码(Positional Encoding):在没有循环结构的情况下,帮助模型理解单词的顺序信息。

2.3 LLM 基本训练方法


2.3.1 预训练(Pretraining)


LLM 训练通常采用大规模无监督学习,即:1. 从互联网上收集大量文本数据,如书籍、新闻、社交媒体等。2. 让模型学习词语之间的概率分布,理解句子结构。3. 训练目标是最小化预测误差,使其能更好地完成语言任务。


2.3.2 监督微调(Supervised Fine-Tuning, SFT)


在预训练之后,通常需要对模型进行监督微调(SFT):使用人工标注的数
据集,让模型在特定任务上优化表现。调整参数,使其更符合人类需求,如
问答、对话生成等任务。


2.3.3 强化学习(Reinforcement Learning, RL)


采用强化学习(RL)方法进行优化,主要通过人类反馈强化学习(RLHF,
Reinforcement Learning from Human Feedback):

3 DeepSeek-R1 精华图解


3.1 DeepSeek-R1 完整训练过程


DeepSeek-R1 主要亮点在于出色的数学和逻辑推理能力,区别于一般的通用AI 模型。其训练方式结合了强化学习(RL)与监督微调(SFT),创造了一种高效训练,高推理能力AI 模型的方法。
整个训练过程分为核心两阶段,第一步训练基于DeepSeek-V3 论文中的基础模型(而非最终版本),并经历了SFT 和基于纯强化学习调优+ 通用性偏好调整,如下图7所示:

训练起点。DeepSeek-R1 的训练起点是DeepSeek-v3-Base,作为基础模型进行训练,为后续的推理优化奠定基础。

3.1.1 核心创新1:含R1-Zero 的中间推理模型

如图7所示,推理导向的强化学习(Reasoning-Oriented Reinforcement Learning) 得到中间推理模型(Iterim reasoning model), 图8会详细解释中间模 型的训练过程


DeepSeek-R1 核心贡献:首次验证了通过纯强化学习也能大幅提升大模
型推理能力,开源纯强化学习推理模型DeepSeek-R1-Zero


R1-Zero 能生成高质量的推理数据,包括大量长链式思维(Chain-of-Thought,CoT)示例,用于支持后续的SFT 阶段,如图7所示。更加详细介绍参考3.2节。


3.1.2 核心创新2:通用强化学习

第一阶段R1-Zero 虽然展现出惊人的推理能力提升,但是也出现了回复时语言混合,非推理任务回复效果差的问题,为了解决这些问题,DeepSeek提出通用强化学习训练框架。如图7所示,通用强化学习(General Reinforcement Learning)基于SFTcheckpoint,模型进行通用强化学习(RL)训练,优化其在推理任务和其他通用任务上的表现。更加详细介绍参考3.3节。

3.2 含R1-Zero 的中间推理模型训练过程

中间模型占据主要训练精力的阶段,实际上完全通过推理导向的强化学习直接训练而成,完全跳过了监督微调(SFT),如下图8所示,只在强化学习的冷启动阶段使用了SFT

大规模推理导向的强化学习训练,必不可少的就是推理数据,手动标注就太繁琐了,成本昂贵,所以DeepSeek 团队为了解决这个问题,训了一个R1-Zero 模型,这是核心创新。R1-Zero 完全跳过SFT(监督微调)阶段,直接使用强化学习训练,如下图9所示,基于V3,直接使用强化学习开训:

这样做竟然达到了惊人的、意想不到的效果,推理超越OpenAI O1,如下图10所示,蓝线表示单次推理(pass@1)的准确率,红线表示16 次推理取一致性结果(cons@16)的准确率,可以看出一致性推理提高了最终性能。虚线代表OpenAI O1 的基准表现,图中可以看到DeepSeek-R1-Zero 的性能逐步接近甚至超越了OpenAI O1.

中间模型虽然推理能力很强,但存在可读性和多任务能力不足的问题,所以
才有了第二个创新。

3.3 通用强化学习训练过程

最终偏好调整(Preference Tuning),如下图11所示。通用强化学习训练过程后,使得R1 不仅在推理任务中表现卓越,同时在非推理任务中也表现出色。但由于其能力拓展至非推理类应用,因此在这些应用中引入了帮助性(helpfulness)和安全性(safety)奖励模型(类似于Llama 模型),以优化与这些应用相关的提示处理能力。
DeepSeek-R1 是训练流程的终点,结合了R1-Zero 的推理能力和通用强化学习的任务适应能力,成为一个兼具强推理和通用能力的高效AI 模型。

3.4 总结DeepSeek-R1

中间推理模型生成:通过推理导向的强化学习(Reasoning-Oriented RL),直接生成高质量的推理数据(CoT 示例),减少人工标注依赖。通用强化学习优化:基于帮助性和安全性奖励模型,优化推理与非推理任务表现,构建通用性强的模型。最终,DeepSeek-R1 将R1-Zero 的推理能力与通用强化学习的适应能力相结合,成为一个兼具强推理能力和任务广泛适应性的高效AI 模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2295529.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Golang学习之旅】Go + MySQL 数据库操作详解

文章目录 前言1. GORM简介2. 安装GORM并连接MySQL2.1 安装GORM和MySQL驱动2.2 连接MySQL 3. GORM数据模型(Model)3.1 定义User结构体3.2 自动迁移(AutoMigrate) 4. GORM CRUD 操作4.1 插入数据(Create)4.2 …

ArgoCD实战指南:GitOps驱动下的Kubernetes自动化部署与Helm/Kustomize集成

摘要 ArgoCD 是一种 GitOps 持续交付工具,专为 Kubernetes 设计。它能够自动同步 Git 仓库中的声明性配置,并将其应用到 Kubernetes 集群中。本文将介绍 ArgoCD 的架构、安装步骤,以及如何结合 Helm 和 Kustomize 进行 Kubernetes 自动化部署。 引言 为什么选择 ArgoCD?…

每日Attention学习22——Inverted Residual RWKV

模块出处 [arXiv 25] [link] [code] RWKV-UNet: Improving UNet with Long-Range Cooperation for Effective Medical Image Segmentation 模块名称 Inverted Residual RWKV (IR-RWKV) 模块作用 用于vision的RWKV结构 模块结构 模块代码 注:cpp扩展请参考作者原…

机器学习之数学基础:线性代数、微积分、概率论 | PyTorch 深度学习实战

前一篇文章,使用线性回归模型逼近目标模型 | PyTorch 深度学习实战 本系列文章 GitHub Repo: https://github.com/hailiang-wang/pytorch-get-started 本篇文章内容来自于 强化学习必修课:引领人工智能新时代【梗直哥瞿炜】 线性代数、微积分、概率论 …

UNI-MOL: A UNIVERSAL 3D MOLECULAR REPRESENTATION LEARNING FRAMEWORK

UNI-MOL: A UNIVERSAL 3D MOLECULAR REPRESENTATION LEARNING FRAMEWORK Neurips23 推荐指数:#paper/⭐⭐⭐#​(工作量不小) 动机 在大多数分子表征学习方法中,分子被视为 1D 顺序标记或2D 拓扑图,这限制了它们为下游任务整合…

SQL Server查询计划操作符(7.3)——查询计划相关操作符(6)

7.3. 查询计划相关操作符 48)Key Lookup:该操作符对一个有簇索引的表进行书签查找。参数列包含簇索引的名字和用于查找簇索引中数据行的簇键。该操作符总是伴随一个Nested Loops操作符。如果其参数列中出现WITH PREFETCH子句,则查询处理器已决定使用异步预取(预读,read-ah…

C语言【基础篇】之数组——解锁多维与动态数组的编程奥秘

数组 🚀前言🦜数组的由来与用途🌟一维数组详解🖊️二维数组进阶💯动态数组原理🤔常见误区扫盲💻学习路径建议✍️总结 🚀前言 大家好!我是 EnigmaCoder。本文收录于我的专…

掌握API和控制点(从Java到JNI接口)_38 JNI从C调用Java函数 01

1. Why? 将控制点下移到下C/C层 对古典视角的反思 App接近User,所以App在整体架构里,是主导者,拥有控制权。所以, App是架构的控制点所在。Java函数调用C/C层函数,是合理的。 但是EIT造形告诉我们: App…

windows蓝牙驱动开发-蓝牙 LE 邻近感应配置文件

邻近感应检测是蓝牙低功耗 (LE) 的常见用途。 本部分提供了创建可用于开发 UWP 设备应用的邻近感应配置文件的设备实现的指南。 在开发此应用之前,应熟悉蓝牙 LE 函数和蓝牙 LE 邻近感应配置文件规范。 示例服务声明 蓝牙低功耗引入了一个新的物理层,…

免费windows pdf编辑工具Epdf

Epdf(完全免费) 作者:不染心 时间:2025/2/6 Github: https://github.com/dog-tired/Epdf Epdf Epdf 是一款使用 Rust 编写的 PDF 编辑器,目前仍在开发中。它提供了一系列实用的命令行选项,方便用户对 PDF …

C++:类和对象初识

C:类和对象初识 前言类的引入与定义引入定义类的两种定义方法1. 声明和定义全部放在类体中2. 声明和定义分离式 类的成员变量命名规则 类的访问限定符及封装访问限定符封装 类的作用域与实例化类的作用域类实例化实例化方式: 类对象模型类对象的大小存储…

伪分布式Spark3.4.4安装

参考:Spark2.1.0入门:Spark的安装和使用_厦大数据库实验室博客 我的版本: hadoop 3.1.3 hbase 2.2.2 java openjdk version "1.8.0_432" 问了chatgpt,建议下载Spark3.4.4,不适合下载Spark 2.1.0: step1 Spark下载…

kafka服务端之控制器

文章目录 概述控制器的选举与故障恢复控制器的选举故障恢复 优雅关闭分区leader的选举 概述 在Kafka集群中会有一个或多个broker,其中有一个broker会被选举为控制器(Kafka Controler),它负责管理整个集群中所有分区和副本的状态。…

【R语言】数据分析

一、描述性统计量 借助R语言内置的airquality数据集进行简单地演示: 1、集中趋势:均值和中位数 head(airquality) # 求集中趋势 mean(airquality$Ozone, na.rmT) # 求均值 median(airquality$Ozone, na.rmT) # 求中位数 2、众数 众数(mod…

传输层协议 UDP 与 TCP

🌈 个人主页:Zfox_ 🔥 系列专栏:Linux 目录 一:🔥 前置复盘🦋 传输层🦋 再谈端口号🦋 端口号范围划分🦋 认识知名端口号 (Well-Know Port Number) 二&#xf…

Java/Kotlin双语革命性ORM框架Jimmer(一)——介绍与简单使用

概览 Jimmer是一个Java/Kotlin双语框架 包含一个革命性的ORM 以此ORM为基础打造了一套综合性方案解决方案,包括 DTO语言 更全面更强大的缓存机制,以及高度自动化的缓存一致性 更强大客户端文档和代码生成能力,包括Jimmer独创的远程异常 …

剪辑学习整理

文章目录 1. 剪辑介绍 1. 剪辑介绍 剪辑可以干什么?剪辑分为哪些种类? https://www.bilibili.com/video/BV15r421p7aF/?spm_id_from333.337.search-card.all.click&vd_source5534adbd427e3b01c725714cd93961af 学完剪辑之后如何找工作or兼职&#…

IDEA查看项目依赖包及其版本

一.IDEA将现有项目转换为Maven项目 在IntelliJ IDEA中,将现有项目转换为Maven项目是一个常见的需求,可以通过几种不同的方法来实现。Maven是一个强大的构建工具,它可以帮助自动化项目的构建过程,管理依赖关系,以及其他许多方面。 添加Maven支持 如果你的项目还没有pom.xm…

centos虚拟机迁移没有ip的问题

故事背景,我们的centos虚拟机本来是好好的,但是拷贝到其他电脑上就不能分配ip,我个人觉得这个vmware他们软件应该搞定这个啊,因为这个问题是每次都会出现的。 网络选桥接 网络启动失败 service network restart Restarting netw…

Java 大视界 -- Java 大数据在智能供应链中的应用与优化(76)

💖亲爱的朋友们,热烈欢迎来到 青云交的博客!能与诸位在此相逢,我倍感荣幸。在这飞速更迭的时代,我们都渴望一方心灵净土,而 我的博客 正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识,也…