DeepSeek 冲击(含本地化部署实践)

news2025/2/22 17:47:44

DeepSeek无疑是春节档最火爆的话题,上线不足一月,其全球累计下载量已达4000万,反超ChatGPT成为全球增长最快的AI应用,并且完全开源。那么究竟DeepSeek有什么魔力,能够让大家趋之若鹜,他又将怎样改变世界AI格局和我们的生活,本篇文章将进行简要解析。

DeepSeek与ChatGPT对比

说到人工智能就不得不提OpenAI和ChatGPT,这是绕不开的话题,要分析DeepSeek的实力,最简单的方式就是跟ChatGPT进行对比。

模型分类

ChatGPT目前有两种大模型,分别是面向普通用户,解决日常应用问题的4-OMNI,以及面向专业用户,处理深度思考问题的O1,DeepSeek与之对标的分别是V3模型以及R1模型。





实用效果

据我目前的使用体验下来,DeepSeek的实际体验效果完全不输ChatGPT,甚至在解决数学、物理和推理问题方面表现出色,响应速度比ChatGPT还要快,且能够完整地展示其思考和给出答案的过程,例如最经典的,让绝大多数AI翻车的“1.11和1.9谁大?”的问题,ChatGPT给出的回答是:





前言不搭后语,而反观DeepSeek:

















可以看到DeepSeek不仅给出了正确答案,而且展示了详细的解题思路,甚至有最后的验证。我也测试了许多其他的问题,DeepSeek完全不拉垮,相对于ChatGPT,他在中文领域的问题理解和处理更加到位,使用体验非常好。

这无疑也使得苹果公司柳暗花明又一村,为弥补apple intelligence上在中国区无法使用ChatGPT提供了完美的解决方案。

成本

成本分为两部分:硬件成本和训练成本。AI大模型构建算法绝大部分都是基于公开的论文,所以市场上的大模型,底层逻辑都大同小异,训练数据也来自于互联网,所以主要的成本体现在硬件上,也就是提供AI算力的芯片,自从AI大爆发以来,大家的共识就是堆砌的芯片越多,大模型的表现就越优秀。我先简单介绍一下为什么提升AI的性能就要堆砌大量的芯片。

AI算力的芯片领域是英伟达(Nvidia)一家独大,芯片价格非常昂贵,目前该公司最先进的B200芯片单张的价格就高达4万美金,而且对于AI公司来说你还必须买,因为芯片的产能有限,如果你不抢就会被竞争对手买走,导致你的大模型算力不如他的。





英伟达公司为自家的芯片研发了一种叫CUDA的核心的技术,其全名叫做Compute Unified Device Architecture(统一计算设备架构)。





这是一种并行计算平台和编程模型。开发者通过它,可以间接利用GPU的处理能力,大幅提升计算性能。简单的说,CUDA核心就像是一间间的海水提纯工厂,它可以把如海洋般的GPU算力转换成AI开发者可以直接使用的AI算力,越多的CUDA核心数量就意味着更大的AI算力。





这也就是为什么AI行业越发展,芯片的需求量越大,英伟达的市值就越高。美国也多次通过英伟达“锁算力”以及限制芯片出口,阻碍中国的AI发展。AI行业的发展被一家公司扼住喉咙的现象显然极度不合理,英伟达可谓是真正的万恶之源。

OpenAI不受限制,所以囤积了大量的英伟达芯片,训练ChatGPT据传用到了5万张英伟达的芯片,而DeepSeek作为中国公司,在这方面相比自然相去甚远。

DeepSeek冲击

由于CUDA技术被英伟达牢牢掌握,所以间接提高了所有AI大模型的使用成本,阻碍了AI的发展。以ChatGPT为例,4-OMNI和O1两个大模型的研发成本高达数十亿美金,免费用户使用有诸多限制,付费用户每月20美金,专业用户每月200美金,如果企业想要接入OpenAI的人工智能服务,调用API做客服等用途,则更是按字符收费,虽然比人工客服省钱,但也是一笔不小的开销。这些收入中,绝大多数都是用来平衡购买芯片带来的巨大成本。

DeepSeek之所以引起全球瞩目,就是因为他在“芯片”受限的前提下,达到了与ChatGPT近似的使用体验,甚至在某些领域还远远超过了。OpenAI和它的母公司微软囤积了大量的高端芯片,而DeepSeek手里的芯片,不论从数量还是质量上都不占优势,甚至可以说远远落后。

在深度解析DeepSeek开源的模型代码之后,研究人员发现,DeepSeek之所以能够绝地反击,秘诀就在于他绕过了CUDA核心的限制,使用了完全创新的技术训练大模型,直接利用英伟达的底层技术调用了GPU的算力,相当于能直接使用如大海般的GPU资源,所以才能使用低端的芯片,在极短的时间内完成了模型的训练,达到了与ChatGPT近似的效果。

而且此技术成功解除了AI模型对英伟达芯片的依赖,使DeepSeek可以使用华为的芯片进行训练。DeepSeek服务调用的费用只有ChatGPT的十分之一,具有非常高的性价比和广阔的应用前景。

整体来说,DeepSeek用了很少的钱,很低端的工具,就把美国投入上百亿美元的事给办了。自从DeepSeek爆火之后,市场普遍认为英伟达的芯片估值过高,要实现高性能的AI并不需要如此之贵的芯片,最高端的芯片也并不值那个价钱,这直接导致英伟达的股价当天就暴跌17%,创造了美国股市历史上单日最大跌幅,截至目前英伟达市值蒸发近6000亿美元。

技术曝光的第二天,英伟达,微软和亚马逊的计算平台都宣布接入DeepSeek模型,堪称AI界的“斯普特尼克时刻”,就如同当年苏联率先成功发射人造卫星时一样,让一直以为自己在技术上遥遥领先的西方世界陷入了一片混乱,世界AI市场的格局就此改变。

本地化部署R1模型

DeepSeek虽然好,但是用过的同学都知道他有个致命的问题,就是万恶的资本主义经常组织针对DeepSeek的网络攻击,导致使用时出现“服务器繁忙的问题”。





为了避免被攻击,降低延迟和卡顿,规避共享敏感信息的风险,同时更灵活的进行微调和实验,我们可以把R1模型部署到本地。

安装Ollama

首先登陆Ollama官网:https://ollama.com/。打开官网,然后点击下载,之后安装到本地。





拉取 DeepSeek R1 模型

然后打开Ollama 的模型列表: https://ollama.com/library/deepseek-r1 ,搜索到DeepSeek R1:





显卡需求

各个模型版本需求的显卡档次大致如下表

模型(DeepSeek-R1)显卡档次显存需求
1.5bGTX1050以上1GB
7bRTX2050、RTX3060以上4GB
8bRTX2060、RTX3070以上5GB
14bRTX3080、RTX4070以上8GB
32bRTX4080以上18GB
70bRTX4090、RTX5080以上36GB以上

我们普通的电脑安装1.5B,7B就可以使用,然后在【右上角的的代码】复制,打开终端,输入上述下载命令回车后,会出现模型下载进度,当进度为100%就说明该模型已经下载到本地了。





输入ollama list可以查看安装的模型。





此时已经可以在控制台使用R1模型进行问答了。

包装GUI

只能在命令行中使用既不美观也特别的不方便,所以我们可以使用现成的GUI进行包装,相当于包上图形用户界面。这里以Cherry Studio为例,下载对应版本后打开。





在设置中选择模型服务,选中Ollama





填入对应的本地模型信息:





然后就可以使用了!希望本篇文章能够帮到大家!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2303544.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2025 WE DAY品牌日| 天璇II WE X7 Pro充电桩震撼发布,能效电气开启充电革命

随着新能源产业的迅猛发展,充电桩作为电动汽车能量补给的重要基础设施,正在成为市场关注的焦点。能效电气作为充电桩领域的佼佼者,专注于研发高效、智能的充电解决方案,为电动汽车的普及与可持续发展铺设了坚实的基础。 2025年2月21日,能效电气在深圳盛大举办了以“以创新 引未…

Python(二十二)实现各大跨境船公司物流查询CMA船司物流查询

一、前言 本章主要实现 【之前CMA船司物流信息查询】的遗留问题 解决思路 由于CMA船司查询需要进行[机器人验证] 方法1:直接从前端跳过,用selenium实现前端自动化,查询物流信息 方法2:捕捉到接口search,但需要将返回…

Ollama 安装

Ollama 支持多种操作系统,包括 macOS、Windows、Linux 以及通过 Docker 容器运行。 Ollama 对硬件要求不高,旨在让用户能够轻松地在本地运行、管理和与大型语言模型进行交互。 CPU:多核处理器(推荐 4 核或以上)。GPU…

复习dddddddd

1. 思路&#xff1a;用队列先进先出的特性 #include <iostream> #include <vector> #include <stack> #include <cstdio> #include <algorithm> #include <cstring> #include <climits> #include <cstdlib> #include <cma…

大数据技术Kafka详解 ⑥ | Kafka大厂面试题

目录 1、为什么要使用kafka? 2、kafka消费过的消息如何再消费? 3、kafka的数据是放在磁盘上还是内存上&#xff0c;为什么速度会快? 4、kafka数据怎么保障不丢失? 4.1、生产者数据的不丢失 4.2、消费者数据的不丢失 4.3、kafka集群中的broker的数据不丢失 5、采集数…

Jupyter里面的manim编程学习

1.Jupyterlab的使用 因为我之前一直都是使用的vscode进行manim编程的&#xff0c;但是今天看的这个教程使用的是Jupyter&#xff0c;我也很是好奇这个manim在Jupyter这样的交互式下面会生成怎么样的效果&#xff0c;所以今天尝试了jupyter&#xff0c;并且对于两个进行比较和说…

hot100_19. 删除链表的倒数第 N 个结点

hot100_19. 删除链表的倒数第 N 个结点 思路 给你一个链表&#xff0c;删除链表的倒数第 n 个结点&#xff0c;并且返回链表的头结点。 示例 1&#xff1a; 输入&#xff1a;head [1,2,3,4,5], n 2 输出&#xff1a;[1,2,3,5] 示例 2&#xff1a; 输入&#xff1a;head […

✨1.HTML、CSS 和 JavaScript 是什么?

✨✨ HTML、CSS 和 JavaScript 是构建网页的三大核心技术&#xff0c;它们相互协作&#xff0c;让网页呈现出丰富的内容、精美的样式和交互功能。以下为你详细介绍&#xff1a; &#x1f98b;1. HTML&#xff08;超文本标记语言&#xff09; 定义&#xff1a;HTML 是一种用于描…

机器学习的数学基础(三)——概率与信息论

目录 1. 随机变量2. 概率分布2.1 离散型变量和概率质量函数2.2 连续型变量和概率密度函数 3. 边缘概率4. 条件概率5. 条件概率的链式法则6. 独立性和条件独立性7. 期望、方差和协方差7.1 期望7.2 方差7.3 协方差 8. 常用概率分布8.1 均匀分布 U ( a , b ) U(a, b) U(a,b)8.2 Be…

flutter将utf-8编码的字节序列转换为中英文字符串

这里遇到的问题是&#xff0c;我通过某种方式拿到了utf-8编码的字节序列&#xff0c;我只知道他们对应的是中英文字符。怎么将其转成中英文&#xff0c;并打印&#xff0c;让我对utf-8编码有了些许许的了解。 这里记录一下转换代码&#xff1a; String wifiName \xE9\xA1\xB…

IM聊天系统架构实现

一、IM系统整体架构 二、企业级IM系统如何实现心跳与断线重连机制&#xff1b; 1、重连机制&#xff08;服务端下线&#xff09; 服务端下线&#xff0c;客户端netty可以感知到&#xff0c;在感知的方法中进行重连的操作&#xff0c;注意重连可能连接到旧的服务器继续报错&…

基于腾讯云大模型知识引擎×DeepSeek构建八字、六爻赛博算卦娱乐应用

引言 随着DeepSeek的火爆&#xff0c;其强大的思维链让不少人越用越香&#xff0c;由于其缜密的思维和推理能力&#xff0c;不少人开发出了不少花里胡哨的玩法&#xff0c;其中一种就是以八字、六爻为代表的玄学文化正以“赛博玄学”的新形态席卷年轻群体。 针对于八字、六爻…

linux文件管理命令ln

linux文件管理命令ln 1、软链接2、硬链接3、命令参数3.1、必要参数3.2、选择参数 4、应用示例4.1、创建硬链接4.2、创建软链接&#xff08;符号链接&#xff09;4.3、 对目录创建软链接4.4、强制覆盖目标文件 5、应用场景 它的功能是为某一个文件在另外一个位置建立一个同步的链…

CT dicom 去除床板 去除床位,检查床去除

1. 前言 医院拍摄患者CT与MRI 图像&#xff0c; 但是CT图像中就会出现检查床的区域&#xff0c;来看CT扫描设备是什么样子的&#xff0c;红色标出区域 可以在图中看到&#xff0c;在头部位置安装有固定头部的类似支架的东西&#xff0c;这个东西拍摄出来时什么样子呢&#xff…

扩散模型中,Flow Matching的训练方式相比于 DDPM 训练方法有何优势?

在扩散模型中,Flow Matching(FM)相比DDPM(Denoising Diffusion Probabilistic Models)的训练方法具有以下核心优势: 1. 更简单的训练目标 DDPM:通过逐步预测噪声来间接优化数据分布的变分下界(ELBO),需要设计多步的噪声调度策略,训练目标依赖马尔可夫链的分解。Flow…

【用deepseek和chatgpt做算法竞赛】——还得DeepSeek来 -Minimum Cost Trees_5

往期 【用deepseek和chatgpt做算法竞赛】——华为算法精英实战营第十九期-Minimum Cost Trees_0&#xff1a;介绍了题目和背景【用deepseek和chatgpt做算法竞赛】——华为算法精英实战营第十九期-Minimum Cost Trees_1&#xff1a;题目输入的格式说明&#xff0c;选择了邻接表…

Python实现GO鹅优化算法优化随机森林分类模型项目实战

说明&#xff1a;这是一个机器学习实战项目&#xff08;附带数据代码文档视频讲解&#xff09;&#xff0c;如需数据代码文档视频讲解可以直接到文章最后关注获取。 1.项目背景 在当今数据驱动的世界中&#xff0c;机器学习技术被广泛应用于各种领域&#xff0c;如金融、医疗、…

【目标检测】【YOLOv4】YOLOv4:目标检测的最佳速度与精度

YOLOv4&#xff1a;目标检测的最佳速度与精度 0.论文摘要 有许多特征被认为可以提高卷积神经网络&#xff08;CNN&#xff09;的准确性。需要在大规模数据集上对这些特征的组合进行实际测试&#xff0c;并对结果进行理论上的验证。某些特征仅适用于特定模型和特定问题&#…

常用电脑,护眼软件推荐 f.lux 3400K | 撰写论文 paper

常用电脑&#xff1f;平均每天用 5 个小时&#xff1f;你就要考虑用一个护眼软件了&#xff0c;对皮肤也好。因为电脑屏幕有辐射&#xff0c;比如蓝光。 f.lux 作为一款专业护眼软件&#xff0c;值得使用。之前用了三年的 Iris Pro&#xff0c;现在 f.lux 做的更好了。 使用…

新手小白如何挖掘cnvd通用漏洞之存储xss漏洞(利用xss钓鱼)

视频教程和更多福利在我主页简介或专栏里 &#xff08;不懂都可以来问我 专栏找我哦&#xff09; 如果对你有帮助你可以来专栏找我&#xff0c;我可以无偿分享给你对你更有帮助的一些经验和资料哦 目录&#xff1a; 一、XSS的三种类型&#xff1a; 二、XSS攻击的危害&#x…