Mooncake：kimi后端推理服务的架构设计

Mooncake：kimi后端推理服务的架构设计

news2025/1/2 20:39:53

前言

本文依托论文《Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving》来讲解kimi的后端服务架构Mooncake，并按照自己的思路来梳理论文中的一些关键信息。

背景

服务端面临的问题

随着大模型技术越来越强，很多应用都是以Maas（Model as a Service)的方式对外提供服务，服务端的能力受模型的能力约束。对于C端应用来说，期望的服务端优化目标一般时最大化有效吞吐量，以保证大量用户的正常体验。这种优化进行的同时一般也要满足SLO（服务等级目标）。在大模型应用的背景下，这里的目标通常是首次生成令牌的时间（TTFT）和令牌之间的时间（TBT）。一般优化的目标期望在这些点之间进行trade off。

常见的解决方案

对于最大化吞吐量的目标而言，目前的优化方式一般是：

尽可能多地重复使用 KVCache，以减少所需的计算资源（比如之前文章中提到的PageAttention,RAGCache等）。
最大化每个批次中的令牌数量，以提高模型浮点运算利用率（MFU）。

虽然这两种方式一般可以提高吞吐量，但在SLO上可

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2267611.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

构建全志 T113 Tina SDK

构建全志 T113 Tina SDK

1、环境配置： 准备一个 Ubuntu 系统，可以是 WSL，虚拟机等，建议版本是 20.04。 1.1、安装必要的软件进入系统后，输入下方命令安装需要的工具 ： sudo apt update -y sudo apt full-upgrade -y sudo apt i…

阅读更多...

Linux 搭建 nginx+keepalived 高可用 | Nginx反向代理

Linux 搭建 nginx+keepalived 高可用 | Nginx反向代理

注意：本文为 “Linux 搭建 nginxkeepalived (主备双主模式) 高可用 | Nginx反向代理” 相关文章合辑。 KeepalivedNginx实现高可用（HA） xyang0917 于 2016-09-17 00:24:15 发布 keepalived 的 HA 分为抢占模式和非抢占模式，抢占…

阅读更多...

RDFS—RDF模型属性扩展解析

RDFS—RDF模型属性扩展解析

目录前言1. 什么是RDFS？1.1 RDFS的核心概念1.2 RDFS与RDF的区别 2. RDFS的基础概念2.1 类（Class）2.2 属性（Property）2.3 关系（Relation）2.4 定义域（Domain）2.5 值域&…

阅读更多...

rust windwos 两个edit框

rust windwos 两个edit框

use winapi::shared::minwindef::LOWORD; use windows::{core::*,Win32::{Foundation::*,Graphics::Gdi::{BeginPaint, EndPaint, PAINTSTRUCT},System::LibraryLoader::GetModuleHandleA,UI::WindowsAndMessaging::*,}, };// 两个全局静态变量，用于保存 Edit 控件的…

阅读更多...

Python Polars快速入门指南：LazyFrames

Python Polars快速入门指南：LazyFrames

前文已经介绍了Polars的Dataframe, Contexts 和 Expressions，本文继续介绍Polars的惰性API。惰性API是该库最强大的功能之一，使用惰性API可以设定一系列操作，而无需立即运行它们。相反，这些操作被保存为计算图，只在必要…

阅读更多...

常见CMS漏洞（wordpress,DedeCms,ASPCMS,PHPMyAdmin）

常见CMS漏洞（wordpress,DedeCms,ASPCMS,PHPMyAdmin）

练习一:wordpress漏洞测试 1.上传包含木马的主题安装网站登陆网站上传主题处测试漏洞注入在上传主题模板压缩包中写入一句话木马网站上传含有木马的zip压缩包上传成功 wordpress主题目录 wp-content/themes 访问上传木马测试 2.修改主题的配置文件为含有木马的文件练习…

阅读更多...

【Java数据结构】LinkedList与链表

【Java数据结构】LinkedList与链表

认识LinkedList LinkedList就是一个链表，它也是实现List接口的一个类。LinkedList就是通过next引用将所有的结点链接起来，所以不需要数组。LinkedList也是以泛型的方法实现的，所以使用这个类都需要实例化对象。链表分为很多种，比…

阅读更多...

基于 Ragflow 搭建知识库-初步实践

基于 Ragflow 搭建知识库-初步实践

基于 Ragflow 搭建知识库-初步实践一、简介 Ragflow 是一个强大的工具，可用于构建知识库，实现高效的知识检索和查询功能。本文介绍如何利用 Ragflow 搭建知识库，包括环境准备、安装步骤、配置过程以及基本使用方法。二、环境准备硬件要…

阅读更多...

【我的 PWN 学习手札】IO_FILE 之 stdout任意地址读

【我的 PWN 学习手札】IO_FILE 之 stdout任意地址读

上一篇文章学会了stdin任意地址写【我的 PWN 学习手札】IO_FILE 之 stdin任意地址写-CSDN博客本篇关注stdout利用手法，和上篇提及的手法有着异曲同工之妙文章目录前言一、_IO_2_1_stdout_输出链，及利用思路 （一）_IO_2_1_std…

阅读更多...

一网多平面

一网多平面

“一网多平面”是一种网络架构概念，具体指的是在一张物理网络之上，逻辑划分出“1N”个平面。以下是对“一网多平面”的详细解释： 定义与构成 01一网多平面指的是在统一的物理网络基础设施上，通过逻辑划分形成多个独立的网络平面…

阅读更多...

设计模式之状态模式：自动售货机的喜怒哀乐

设计模式之状态模式：自动售货机的喜怒哀乐

~犬📰余~ “我欲贱而贵，愚而智，贫而富，可乎？ 曰：其唯学乎” 一、状态模式概述 \quad 在我们的日常生活中，很多事物都具有不同的状态。比如我们经常使用的自动售货机，它就具有多种状态…

阅读更多...

信息系统管理工程第8章思维导图

信息系统管理工程第8章思维导图

软考信管第8章的思维导图也实在是太长了，制作的耗时远超过之前的预计。给你看看思维导图的全貌如下，看看你能够在手机上滚动多少个屏幕当你看到这段文字的时候，证明你把思维导图从上到下看完了，的确很长吧，第8章的教程…

阅读更多...

Excel无法插入新单元格怎么办？有解决方法吗？

Excel无法插入新单元格怎么办？有解决方法吗？

在使用Excel时，有时会遇到无法插入新单元格的困扰。这可能是由于多种原因导致的，比如单元格被保护、冻结窗格、合并单元格等。本文将详细介绍3种可能的解决方案，帮助你顺利插入新单元格。一、消冻结窗格冻结窗格功能有助于在滚动工作表时保…

阅读更多...

深度学习笔记（12）——深度学习概论

深度学习笔记（12）——深度学习概论

深度学习概论深度学习关系： 为什么机器人有一部分不在人工智能里面：机器人技术是一个跨学科的领域，它结合了机械工程、电子工程、计算机科学以及人工智能（AI）等多个领域的知识。并不是所有的机器人都依赖于人工智能…

阅读更多...

HEIC 是什么图片格式？如何把 iPhone 中的 HEIC 转为 JPG？

HEIC 是什么图片格式？如何把 iPhone 中的 HEIC 转为 JPG？

在 iPhone 拍摄照片时，默认的图片格式为 HEIC。虽然 HEIC 格式具有高压缩比、高画质等优点，但在某些设备或软件上可能存在兼容性问题。因此，将 HEIC 格式转换为更为通用的 JPG 格式就显得很有必要。本教程将介绍如何使用简鹿格式工厂&#xf…

阅读更多...

flask后端开发（11）：User模型创建+注册页面模板渲染

flask后端开发（11）：User模型创建+注册页面模板渲染

目录一、数据库创建和配置信息1.新建数据库2.数据库配置信息3.User表4.ORM迁移二、注册页面模板渲染1.导入静态文件2.蓝图注册路由一、数据库创建和配置信息 1.新建数据库终端中 CREATE DATABASE zhiliaooa DEFAULT CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;2…

阅读更多...

【Next.js】001-项目初始化

【Next.js】001-项目初始化

【Next.js】001-项目初始化文章目录【Next.js】001-项目初始化一、前言二、自动创建项目1、环境要求2、创建项目创建命令创建演示生成的项目目录如果你不使用 npx 命令 3、运行项目脚本说明在开发环境运行项目查看页面 4、示例代码说明创建项目查看示例项目创建项目命令创建过…

阅读更多...

系统安全——可信计算

系统安全——可信计算

可信计算可信计算的起源上世纪八十年代，TCSEC标准将系统中所有安全机制的总和定义为可信计算基 （Trusted Computing Base TCB) TCB的要求是： 独立的（independent） 具有抗篡改性 tempering proof 不可旁路(无法窃…

阅读更多...

Python学生管理系统（MySQL）

Python学生管理系统（MySQL）

上篇文章介绍的Python学生管理系统GUI有不少同学觉得不错来找博主要源码，也有同学提到老师要增加数据库管理数据的功能，本篇文章就来介绍下python操作数据库，同时也对上次分享的学生管理系统进行了改进了，增加了数据库&#xff0c…

阅读更多...

【Sentinel】流控效果与热点参数限流

【Sentinel】流控效果与热点参数限流

目录 1.流控效果 1.1.warm up 2.2.排队等待 1.3.总结 2.热点参数限流 2.1.全局参数限流 2.2.热点参数限流 2.3.案例 1.流控效果在流控的高级选项中，还有一个流控效果选项： 流控效果是指请求达到流控阈值时应该采取的措施，包括三种&…

阅读更多...

推荐文章

最新文章