【DeepSeek】DeepSeek概述 | 本地部署deepseek

news2025/2/11 2:48:03

目录

1 -> 概述

1.1 -> 技术特点

1.2 -> 模型发布

1.3 -> 应用领域

1.4 -> 优势与影响

2 -> 本地部署

2.1 -> 安装ollama

2.2 -> 部署deepseek-r1模型


1 -> 概述

DeepSeek是由中国的深度求索公司开发的一系列人工智能模型,以其高效的性能和低成本的训练而受到关注。以下是其主要介绍:

1.1 -> 技术特点

  • 混合专家架构(MoE):DeepSeek-V3采用MoE架构,总参数达6710亿,但每个输入只激活370亿参数,通过动态冗余策略,在推理和训练过程中保持最佳的负载平衡,大大降低了计算成本,同时保持高性能。
  • 多头潜在注意力(MLA):引入多头潜在注意力机制,通过低秩联合压缩机制,将Key-Value矩阵压缩为低维潜在向量,显著减少内存占用。
  • 无辅助损失负载均衡:采用无辅助损失负载均衡策略,最小化因鼓励负载均衡而导致的性能下降。
  • 多Token预测(MTP):采用多Token预测目标,证明其对模型性能有益,并可用于推理加速。
  • FP8混合精度训练:设计了FP8混合精度训练框架,首次验证了在极大规模模型上进行FP8训练的可行性和有效性。
  • 知识蒸馏:DeepSeek-R1通过知识蒸馏,将长链推理(CoT)模型的推理能力蒸馏到标准LLM中,显著提升了推理性能。

1.2 -> 模型发布

  • DeepSeek-V3:2024年12月发布,总参数达6710亿,采用创新的MoE架构和FP8混合精度训练,训练成本仅为557.6万美元,在聊天机器人竞技场(Chatbot Arena)上排名第七,在开源模型中排名第一,是全球前十中性价比最高的模型。
  • DeepSeek-R1:2025年1月发布,性能与OpenAI的o1正式版持平,并开源,在Chatbot Arena综合榜单上排名第三,与OpenAI的o1并列,在高难度任务上表现出色。
  • Janus-Pro:2025年1月28日发布,分为7B(70亿)和1.5B(15亿)两个参数量版本,且均为开源,在多模态理解和文本到图像的指令跟踪功能方面取得重大进步,同时增强了文本到图像生成的稳定性,在多项基准测试中表现出色,甚至强于OpenAI旗下的DALL-E 3,以及Stable Diffusion。

1.3 -> 应用领域

  • 自然语言处理:能够理解并回答用户的问题,进行文本生成、翻译、摘要等任务,可用于智能客服、内容创作、信息检索等领域。
  • 代码生成与调试:支持多种编程语言的代码生成、调试和数据分析任务,帮助程序员提高工作效率。
  • 多模态任务:如Janus-Pro模型可进行文生图、图生文等多模态任务,在图像生成、图像理解等方面有应用潜力。

1.4 -> 优势与影响

  • 成本效益高:通过算法优化和架构创新,在保证性能的前提下,大幅降低了训练和推理成本,使AI技术更易于普及和应用。
  • 开源策略:采用完全开源策略,吸引了大量开发者和研究人员的关注,促进了AI社区的协作和技术的快速发展。
  • 推动行业变革:DeepSeek的成功挑战了传统的“大力出奇迹”的AI发展模式,为行业提供了新的发展思路和方向,激发了更多的创新和探索。

2 -> 本地部署deepseek

2.1 -> 安装ollama

ollama官网

  • 点击Download下载 

  • 选择对应的操作系统,本次以Windows操作系统为例

点击Download for Windows下载。 

  • 下载完成后,打开文件开始安装OllamaSetup

  • 点击Install开始下载,等待下载完成

  • 检查是否安装成功

win+R输入cmd调出命令行进入到命令模式,输入命令ollama -v查看是否安装成功,输入完命令出现了版本号的话就说明安装成功。

2.2 -> 部署deepseek-r1模型

  • 回到ollama官网点击左上角的Models进入如下界面。并选择第一个deepseek-r1,点击进入

  • 选择适合自己电脑配置的版本

  • 选择好后,复制对应版本后的命令

  • win+R输入cmd调出命令行进入到命令模式,输入命令

如果觉得下载速度慢,可以Ctrl+C先退出这个命令,然后再输入命令重新进行下载,还是会接着上次的下载进度继续下载,速度会稍微快一些。

  • 下载完成后会出现success,接下来就可以进行对话了

  • 问一个AI经常会出错的问题:9.11和9.9哪个大

可以看到,会给出思考过程以及最终结论。 

  • 输入命令/bye可以退出对话

  • 输入命令ollama list可以查看下载好的模型

  • 输入ollama run + 对应的模型就可以进入对话

 这里输入ollama run deepseek-r1:latest可以发现再一次进入对话。

这样本地部署deepseek就算完成啦


感谢各位大佬支持!!!

互三啦!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2296088.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ASP.NET Core 使用 WebClient 从 URL 下载

本文使用 ASP .NET Core 3.1,但它在.NET 5、 .NET 6和.NET 8上也同样适用。如果使用较旧的.NET Framework,请参阅本文,不过,变化不大。 如果想要从 URL 下载任何数据类型,请参阅本文:HttpClient 使用WebC…

【CubeMX-HAL库】STM32F407—无刷电机学习笔记

目录 简介: 学习资料: 跳转目录: 一、工程创建 二、板载LED 三、用户按键 四、蜂鸣器 1.完整IO控制代码 五、TFT彩屏驱动 六、ADC多通道 1.通道确认 2.CubeMX配置 ①开启对应的ADC通道 ②选择规则组通道 ③开启DMA ④开启ADC…

vue3 点击图标从相册选择二维码图片,并使用jsqr解析二维码(含crypto-js加密解密过程)

vue3 点击图标从相册选择二维码图片,并使用jsqr解析二维码(含crypto-js加密解密过程) 1.安装 jsqr 和 crypto-js npm install -d jsqr npm install crypto-js2.在util目录下新建encryptionHelper.js文件,写加密解密方法。 // e…

kafka 3.5.0 raft协议安装

前言 最近做项目,需要使用kafka进行通信,且只能使用kafka,笔者没有测试集群,就自己搭建了kafka集群,实际上笔者在很早之前就搭建了,因为当时还是zookeeper(简称ZK)注册元数据&#…

前后端服务配置

1、安装虚拟机(VirtualBox或者vmware),在虚拟机上配置centos(选择你需要的Linux版本),配置如nginx服务器等 1.1 VMware 下载路径Sign In注册下载 1.2 VirtualBox 下载路径https://www.virtualbox.org/wiki/Downloads 2、配置服…

在阿里云ECS上一键部署DeepSeek-R1

DeepSeek-R1 是一款开源模型,也提供了 API(接口)调用方式。据 DeepSeek介绍,DeepSeek-R1 后训练阶段大规模使用了强化学习技术,在只有极少标注数据的情况下提升了模型推理能力,该模型性能对标 OpenAl o1 正式版。DeepSeek-R1 推出…

git SourceTree 使用

Source Tree 使用原理 文件的状态 创建仓库和提交 验证 再克隆的时候发发现一个问题,就是有一个 这个验证,起始很简单 就是 gitee 的账号和密码,但是要搞清楚的是账号不是名称,我之前一直再使用名称登录老是出问题 这个很简单的…

游戏引擎学习第94天

仓库:https://gitee.com/mrxiao_com/2d_game_2 回顾上周的渲染器工作 完成一款游戏的开发,完全不依赖任何库和引擎,这样我们能够全面掌握游戏的开发过程,确保没有任何细节被隐藏。我们将深入探索每一个环节,犹如拿着手电筒翻看床…

win32汇编环境,结构体的使用示例二

;运行效果 ;win32汇编环境,结构体的使用示例二 ;举例说明结构体的定义,如何访问其中的成员,使用assume指令指向某个结构体,计算结构数组所需的偏移量得到某个成员值等 ;直接抄进RadAsm可编译运行。重要部分加备注。 ;下面为asm文件 ;>>…

DeepSeek从入门到精通教程PDF清华大学出版

DeepSeek爆火以来,各种应用方式层出不穷,对于很多人来说,还是特别模糊,有种雾里看花水中望月的感觉。 最近,清华大学新闻与传播学院新媒体研究中心,推出了一篇DeepSeek的使用教程,从最基础的是…

【PDF提取内容】如何批量提取PDF里面的文字内容,把内容到处表格或者批量给PDF文件改名,基于C++的实现方案和步骤

以下分别介绍基于 C 批量提取 PDF 里文字内容并导出到表格,以及批量给 PDF 文件改名的实现方案、步骤和应用场景。 批量提取 PDF 文字内容并导出到表格 应用场景 文档数据整理:在处理大量学术论文、报告等 PDF 文档时,需要提取其中的关键信…

SSA-TCN麻雀算法优化时间卷积神经网络时间序列预测未来Matlab实现

SSA-TCN麻雀算法优化时间卷积神经网络时间序列预测未来Matlab实现 目录 SSA-TCN麻雀算法优化时间卷积神经网络时间序列预测未来Matlab实现预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.Matlab实现SSA-TCN麻雀算法优化时间卷积神经网络时间序列预测未来(优…

大模型推理——MLA实现方案

1.整体流程 先上一张图来整体理解下MLA的计算过程 2.实现代码 import math import torch import torch.nn as nn# rms归一化 class RMSNorm(nn.Module):""""""def __init__(self, hidden_size, eps1e-6):super().__init__()self.weight nn.Pa…

大数据项目2:基于hadoop的电影推荐和分析系统设计和实现

前言 大数据项目源码资料说明: 大数据项目资料来自我多年工作中的开发积累与沉淀。 我分享的每个项目都有完整代码、数据、文档、效果图、部署文档及讲解视频。 可用于毕设、课设、学习、工作或者二次开发等,极大提升效率! 1、项目目标 本…

Windows逆向工程入门之汇编环境搭建

公开视频 -> 链接点击跳转公开课程博客首页 -> ​​​链接点击跳转博客主页 Visual Studio逆向工程配置 基础环境搭建 Visual Studio 官方下载地址安装配置选项(后期可随时通过VS调整) 使用C的桌面开发 拓展可选选项 MASM汇编框架 配置MASM汇编项目 创建新项目 选择空…

gc buffer busy acquire导致的重大数据库性能故障

📢📢📢📣📣📣 作者:IT邦德 中国DBA联盟(ACDU)成员,10余年DBA工作经验 Oracle、PostgreSQL ACE CSDN博客专家及B站知名UP主,全网粉丝10万 擅长主流Oracle、MySQL、PG、高斯…

Formily 如何进行表单验证

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…

安宝特方案 | AR眼镜:远程医疗的“时空折叠者”,如何为生命争夺每一分钟?

行业痛点:当“千里求医”遇上“资源鸿沟” 20世纪50年代,远程会诊的诞生曾让医疗界为之一振——患者不必跨越山河,专家无需舟车劳顿,一根电话线、一张传真纸便能架起问诊的桥梁。然而,传统远程医疗的局限也日益凸显&a…

使用git commit时‘“node“‘ 不是内部或外部命令,也不是可运行的程序

第一种: 使用git commit -m "xxx"时会报错,我看网上的方法是在命令行后面添加--no-verify:git commit -m "主题更新" --no-verify,但是不可能每次都添加。 最后解决办法是:使用git config --lis…

nodejs - vue 视频切片上传,本地正常,线上环境导致磁盘爆满bug

nodejs 视频切片上传,本地正常,线上环境导致磁盘爆满bug 原因: 然后在每隔一分钟执行du -sh ls ,发现文件变得越来越大,即文件下的mp4文件越来越大 最后导致磁盘直接爆满 排查原因 1、尝试将m3u8文件夹下的所有视…