解锁 DeepSeek 安全接入、稳定运行新路径

news2025/3/21 3:30:46

背景

目前,和 DeepSeek 相关的需求总结为两类:

  • 因官方 APP/Web 服务经常无法返回结果,各类云厂商、硬件或软件企业提供满血版或蒸馏版的 API + 算力服务,还有不少基于开源+家用计算和存储设备的本地部署方案,以分担 DeepSeek 官方的服务压力。
  • 各行各业开始调用 DeepSeek  API 来设计大模型应用,服务于企业内外部,关注应用的构建效率和稳定性。

此前,我们已经针对以上的第一点需求,发布了不少云端和本地的部署;本篇文章,将针对第二点需求,谈谈流量管理层的工程化方案。

DeepSeek 部署

由于 DeepSeek 开源了完整的 DeepSeek-R1 模型权重,企业可以将模型部署到自己的网络内,从而使得整个 AI 应用的数据链路都掌握在自己手里。

模型权重下载

可以通过魔搭社区 (https://modelscope.cn/) 下载模型权重。

由于完整的 DeepSeek-R1 模型有 671B 参数,运行其全量参数模型需要大量的 GPU 资源,可以考虑通过 int8/int4 等量化方式推理。同时,DeepSeek 也放出了几个不同规格的蒸馏模型,可以在较低配置的机器上部署。

部署方案

阿里云官方已经提供了多种部署方式,包括 PAI、GPU + ACK、魔搭社区+FC、Spring AI Alibaba + Ollama。本文不再详细展开,感兴趣的朋友可自行选择下方链接,了解详情。

  • PAI:https://mp.weixin.qq.com/s/Ly9bseQxhmunlbePphRsnA
  • 百炼:https://mp.weixin.qq.com/s/UgB90HfKlMDfarMugc5F5w
  • 容器化部署(GPU + ACK):https://mp.weixin.qq.com/s/SSGD5G7KL8iYLy2jxh9FOg
  • Serverless 部署(魔搭社区+FC):https://mp.weixin.qq.com/s/yk5t0oIv7XQR0ky6phiq6g
  • 本地部署(Spring AI Alibaba + Ollama + Higress):https://mp.weixin.qq.com/s/-8z9OFHvn0A1ga2rFsmeww
通过 PAI 部署

本方案以 DeepSeek-R1-Distill-Qwen-7B 为例进行演示,用户通过人工智能平台 PAI 的 Model Gallery,无须写代码即可完成模型部署。用户也可以在 PAI-Model Gallery 中选择 DeepSeek-R1 等其他模型进行一键部署,系统将自动适配所需的实例规格。

部署指南:https://www.aliyun.com/solution/tech-solution-deploy/2868642

通过百炼部署

百炼提供了 DeepSeek 模型调用的 API,其中 DeepSeek-R1 与 DeepSeek-V3 分别有 100 万的免费 Token,另有多款开源 Qwen 及 Llama 蒸馏模型支持调用。

部署指南:https://www.aliyun.com/solution/tech-solution-deploy/2868889

通过 GPU 服务器部署

将 DeepSeek-R1 开源模型部署到 GPU 云服务器。在 GPU 云服务器上安装与配置 vLLM 和 Open WebUI。vLLM 负责托管 DeepSeek-R1 模型,Open WebUI 则为用户提供友好的交互界面。

部署指南:https://www.aliyun.com/solution/tech-solution-deploy/2868645

通过 Serverless 范式部署

通过云原生应用开发平台 CAP 部署 Ollama 和 Open WebUI 两个 FC 函数。Ollama 负责托管模型,它是基于 DeepSeek-R1 的推理能力,通过蒸馏技术将推理模式迁移到较小的 Qwen 模型上,从而在保持高效性能的同时降低了计算成本。

部署指南:https://www.aliyun.com/solution/tech-solution-deploy/2868644

本地部署

下载 Ollama,在项目中加入 spring-ai-ollama-spring-boot-starter 依赖,由于模型是通过 ollama 运行的,这里我们也加入,再将 ChatClientBean 注入就可以实现与 DS 模型聊天了。

部署指南:https://java2ai.com/blog/spring-ai-alibaba-ollama-deepseek

大模型应用落地过程中的常见需求

和部署 Web 应用一样,当我们在部署大模型应用时,也会遇到诸如流量突发与过载、网络波动与延迟、安全与合规问题、调用额度和成本管控、发布引起的线上故障等工程化难题,但是由于大模型应用的架构和 Web 应用有所不同,因此应对方案也会有所差异。如下图。

在《大模型推理全景图》一文中,我们分享了流量管控对大模型应用工程化的重要性,而 AI 网关已经成了大模型应用的标配,通过 AI 网关将部署的模型作为服务注册,API 暴露给需要的调用方,同时并具备了限流、鉴权、统计等能力。接下来,我们来看看 AI 网关如何解决大模型应用落地过程中的工程化难题。

Higress 是阿里云开源的一款高性能的网关,用于部署 Web 应用和大模型应用,并提供商业版服务,即阿里云云原生 API 网关,本文将以云原生 API 网关的控制台进行演示。

需求一:自建的 DeepSeek 服务并发有限,调用失败怎么兜底?

DeepSeek-R1 拥有 671B 的庞大参数,部署成本较高,可以部署一些 R1 系列的蒸馏模型进行兜底,如基于 Qwen 模型训练的 DeepSeek-R1-Distill-Qwen-32B [ 1] 是个不错的选择。

云原生 API 网关中的 AI 网关支持配置多个后端模型服务,且可以通过 Fallback 能力将失败的请求重新调度,如调用自部署的 DeepSeek-R1 失败后,就可以路由至一些参数较小的模型。此外,也可以选择路由至在线 API 服务以确保整体服务能力,如 DeepSeek-V3、Qwen-max 等。

如图,配置了 DeepSeek 的服务,Fallback 策略为调用 qwen-max。

需求二:自建的 DeepSeek 服务怎么保证内容安全?

DeepSeek 的 R1 系列开源模型的输出风格整体是偏“自由”的,如果使用其提供对外服务,难免会有对内容安全的担忧,一旦模型对一些敏感问题做了回复,可能会为企业带来一些额外的解释成本。

云原生 API 网关对接了阿里云内容安全,能够做到对大模型请求/响应的实时处理与内容封禁,阿里云内容安全通过了信通院的认证,能够提供强有力的 AI 内容安全保障。

开启内容安全后,此时如果发送违规内容,将会得到如下响应:

{
  "id": "chatcmpl-E45zRLc5hUCxhsda4ODEhjvkEycC9",
  "object": "chat.completion",
  "model": "from-security-guard",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "我不能处理隐私信息"
      },
      "logprobs": null,
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 0,
    "completion_tokens": 0,
    "total_tokens": 0
  }
}

同时,在内容安全控制台可以查看每一个请求的审计日志:

需求三:我想把 API 授权给特定的用户使用,并且控制他们的额度

基于云原生 API 网关的消费者鉴权能力支持模型服务的分租,用户可以像模型服务商一样在网关上签发自己的 API Key 供用户使用,并能够控制消费者的调用权限和调用额度,配合可观测能力,还可以对每个消费者的 token 用量进行观测统计。

对于在线模型服务,则可以通过此功能屏蔽掉模型提供商的 API Key,从而做到 API Key 的分租。

需求四:现在已经有在使用别的 LLM,想切一点流量到 DeepSeek 看看效果

云原生 API 网关支持模型按比例灰度能力,便于用户在模型间迁移,如下图所示,请求流量将有 90% 被路由到 openai,10% 被路由到 DeepSeek,后续灰度的切换也只需修改配置并发布,不需要做任何代码层级的变更。

需求五:部署模型推理的成本很高,常见的请求能用缓存挡掉就好了

云原生 API 网关支持对 LLM 生产结果进行缓存,开启缓存能力后,一些常用的请求,如打招呼、询问产品能力等,均可通过命中的缓存直接回复,不会进入到后端模型,占用宝贵的推理资源。

上面的这些能力怎么看效果呢?

云原生 API 网关提供了更丰富的可观测能力,例如内容安全、限流、缓存等相关的监控。

此外,我们联合 SLS 提供了基于大模型对话的语义向量索引功能以及进阶的语义富化功能,可以实现话题聚类、意图识别、情绪识别、质量评估等能力,帮助用户逐步提升模型应用效果。

相关链接:

[1] DeepSeek-R1-Distill-Qwen-32B

https://modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2318736.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【LangChain入门 1】安装

文章目录 一、安装LangChain二、安装Ollama三、Ollama下载DeepSeekR1-7b模型 本学习系列以Ollama推理后端作为大语言模型,展开对LangChain框架的入门学习。 模型采用deepseek-r1:7b。 毕竟是免费开源的,下载过程耐心等待即可。 如果可以连接外网&#x…

IvorySQL 增量备份与合并增量备份功能解析

1. 概述 IvorySQL v4 引入了块级增量备份和增量备份合并功能,旨在优化数据库备份与恢复流程。通过 pg_basebackup 工具支持增量备份,显著降低了存储需求和备份时间。同时,pg_combinebackup 工具能够将多个增量备份合并为单个完整备份&#x…

【css酷炫效果】纯CSS实现故障文字特效

【css酷炫效果】纯CSS实现故障文字特效 缘创作背景html结构css样式完整代码基础版进阶版(3D效果) 效果图 想直接拿走的老板,链接放在这里:https://download.csdn.net/download/u011561335/90492053 缘 创作随缘,不定时更新。 创作背景 刚…

SpringSecurity配置(自定义认证过滤器)

文末有本篇文章的项目源码文件可供下载学习 在这个案例中,我们已经实现了自定义登录URI的操作,登录成功之后,我们再次访问后端中的API的时候要在请求头中携带token,此时的token是jwt字符串,我们需要将该jwt字符串进行解析,查看解析后的User对象是否处于登录状态.登录状态下,将…

设计模式(行为型)-备忘录模式

目录 定义 类图 角色 角色详解 (一)发起人角色(Originator)​ (二)备忘录角色(Memento)​ (三)备忘录管理员角色(Caretaker)​…

Advanced Intelligent Systems 软体机器手助力截肢者玩转鼠标

随着科技的不断进步,假肢技术在改善截肢者生活质量方面取得了显著成就。然而,截肢群体在就业方面仍面临巨大困难,适龄截肢群体的就业率仅为健全群体的一半。现有的肌电控制假肢手在与计算机交互时存在诸多挑战,特别是截肢者在使用…

每日Attention学习27——Patch-based Graph Reasoning

模块出处 [NC 25] [link] Graph-based context learning network for infrared small target detection 模块名称 Patch-based Graph Reasoning (PGR) 模块结构 模块特点 使用图结构更好的捕捉特征的全局上下文将图结构与特征切片(Patching)相结合,从而促进全局/…

深圳南柯电子|医疗设备EMC检测测试整改:保障患者安全的第一步

在医疗设备领域,电磁兼容性(EMC)是确保设备安全、有效运行的关键指标。随着医疗技术的飞速发展,医疗设备日益复杂,其电磁环境也愈发复杂多变。EMC检测测试及整改因此成为医疗设备研发、生产、销售过程中不可或缺的一环…

【笔记】计算机网络——数据链路层

概述 链路是从一个结点到相邻结点的物理路线,数据链路则是在链路的基础上增加了一些必要的硬件和软件实现 数据链路层位于物理层和网络层之间,它的核心任务是在直接相连的节点(如相邻的交换机,路由器)之间提供可靠且…

STM32-汇编

学习arm汇编的主要目的是为了编写arm启动代码,启动代码启动以后,引导程序到c语言环境下运行。换句话说启动代码的目的是为了在处理器复位以后搭建c语言最基本的需求。因此启动代码的主要任务有: 初始化异常向量表; 初始化各工作模…

利用通义灵码AI在VS Code中快速开发扫雷游戏:Qwen2.5-Max模型的应用实例

引言 随着人工智能技术的不断进步,开发过程中的自动化程度也在逐步提高。阿里云推出的通义灵码AI程序员,作为一款创新型的智能编程助手,现已全面上线并兼容VS Code、JetBrains IDEs等多种开发环境。本文将介绍如何利用最新的Qwen2.5-Max模型…

202503执行jmeter压测数据库(ScyllaDB,redis,lindorm,Mysql)

一、Mysql 1 、 准备MySQL 连接内容 2 、 下载连接jar包 准备 mysql-connector-java-5.1.49.jar 放到 D:\apache-jmeter-5.6.3\lib\ext 目录下面; 3 、 启动jmeter ,配置脚本 添加线程组---》JDBC Connection Configuration---》JDBC Request---》查看结果树。 1)测…

以太网 MAC 帧格式

文章目录 以太网 MAC 帧格式以太网帧间隔参考 本文为笔者学习以太网对网上资料归纳整理所做的笔记,文末均附有参考链接,如侵权,请联系删除。 以太网 MAC 帧格式 以太网技术的正式标准是 IEEE 802.3,它规定了以太网传输数据的帧结…

【PCB工艺】基础:电子元器件

电子原理图(Schematic Diagram)是电路设计的基础,理解电子元器件和集成电路(IC)的作用,是画好原理图的关键。 本专栏将系统讲解 电子元器件分类、常见 IC、电路设计技巧,帮助你快速掌握电子电路…

从WebRTC到嵌入式:EasyRTC如何借助大模型提升音视频通信体验

随着人工智能技术的快速发展,WebRTC与大模型的结合正在为音视频通信领域带来革命性的变革。WebRTC作为一种开源实时通信技术,以其低延迟、跨平台兼容性和强大的音视频处理能力,成为智能硬件和物联网设备的重要技术支撑。 而EasyRTC作为基于W…

前端样式库推广——TailwindCss

官方网址: https://tailwindcss.com/docs/installation/using-vite 中文官方文档:https://www.tailwindcss.cn/ github地址:tailwindcss 正在使用tailwindcss的网站:https://tailwindcss.com/showcase 一看github,竟然…

SpringBoot 第二课(Ⅰ) 整合springmvc(详解)

目录 一、SpringBoot对静态资源的映射规则 1. WebJars 资源访问 2. 静态资源访问 3. 欢迎页配置 二、SpringBoot整合springmvc 概述 Spring MVC组件的自动配置 中央转发器(DispatcherServlet) 控制器(Controller) 视图解…

OpenHarmony 开源鸿蒙北向开发——3.配置SDK

安装、配置完成之后我们就要配置SDK。 我们创建工程后,点击右上角设置 进入设置 进入OpenHarmony SDK,选择编辑 这里配置一下SDK安装位置 点击完成 这里我们API版本勾选第一个即可 确认安装 勾选接受 这里要等一会 安装完成后,点击完成

vulhub Matrix-Breakout

1.下载靶机,打开靶机和kali虚拟机 2.查询kali和靶机ip 3.浏览器访问 访问81端口有登陆界面 4.扫描敏感目录 kali dirb 扫描 一一访问 robot.txt提示我们继续找找,可能是因为我们的字典太小了,我们换个扫描器换个字典试下,利用kali自带的最大…

Unity3D开发AI桌面精灵/宠物系列 【二】 语音唤醒 ivw 的两种方式-Windows本地或第三方讯飞等

Unity3D 交互式AI桌面宠物开发系列【二】ivw 语音唤醒 该系列主要介绍怎么制作AI桌面宠物的流程,我会从项目开始创建初期到最终可以和AI宠物进行交互为止,项目已经开发完成,我会仔细梳理一下流程,分步讲解。 这篇文章主要讲有关于…