不同的llm推理框架

news2025/1/6 17:39:55

vLLM适用于大批量Prompt输入,并对推理速度要求比较高的场景。

实际应用场景中,TensorRT-LLM通常与Triton Inference Server结合起来使用,NVIDIA官方能够提供更适合NVIDIA GPU运行的高效Kernel。

LightLLM比较轻量、易于扩展、易于上手,集成了众多优化的开源实现。

Text generation inference依赖HuggingFace模型,并且不需要为核心模型增加多个adapter的场景。

CTranslate2支持用户在多种CPU架构上面进行LLM的高效推理。

OpenLLM为核心模型添加adapter并使用HuggingFace Agents,不完全依赖PyTorch,支持轻松的微调、服务、部署和监控任何LLM。

RayLLM支持连续批处理,可以获得更好的吞吐量和延时,支持多种LLM后端。

MLC-LLM不仅支持GPU,支持在多种边缘设备(Android或iPhone平台上)本地部署LLM,但是当前支持的模型比较有限。

DeepSpeed-FastGen将DeepSpeed MII与DeepSpeed结合在一起,提供了多种多样的系统组件,拥有多种优化机制。

虽然InferLLM基于llama.cpp,但是它比llama.cpp更轻量、更简洁、更容易上手。

llama.cpp是一个支持纯C/C++实现的推理库,无任何依赖,当前已经从仅支持LLAMA扩展到支持其它的LLM。

rtp-llm是一个已经商业应用的LLM推理框架,支持了淘宝、天猫、菜鸟、高德等多个部门的LLM推理业务。

PowerInfer利用了LLM推理中固有的高局部特性,比llamca.cpp的推理速度更快、精度更高。

XInference不仅支持LLM的推理,还支持文生图模型、文本嵌入模型、语音识别模型、多模态模型等。

FastChat是一个用于培训、服务和评估基于大语言模型的聊天机器人的开放平台。

PPL-LLM基于ppl.nn,支持多种注意力机制、支持动态batch。

BentoML是一个用于构建可靠、可扩展的LLM推理框架。它提供了模型服务、应用程序打包和生产部署所需要的一切。

fastllm是一个纯c++实现、无第三方依赖的高性能LLM推理库,支持INT4量化。

JittorLLM可以支持在一些低性能的端侧设备上面执行LLM推理,模型迁移能力强。

LMDeploy是由MMDeploy和MMRazor团队联合开发,提供了一个涵盖了LLM任务的全套轻量化、部署和服务解决方案。

OneDiffusion是一个开源的一站式仓库,用于促进任何扩散模型的快速部署。

Neural Compressor提供了多种模型压缩技术,包括:量化、裁剪、蒸馏、神经网络搜索。

TACO-LLM是基于腾讯云异构计算产品推出的一套LLM推理框架,用来提升LLM的推理效能。

MindSpore是一种适用于端边云场景的开源LLM训练与推理框架。支持多种并行优化策略,支持自研的LLM量化与剪枝方法。

HuggingFace初衷是为了做聊天机器人业务,最终却成了一个优秀的开源社区,支持400k+个预训练模型、150k+个应用和100k+种数据集。

 AITemplate(AIT)是一个Python框架,它可以将深度神经网络转换为CUDA(NVIDIA GPU)/HIP(AMD GPU)C++代码,用于快速的推理服务。它当前支持的大模型并不多,但是它小而美!
                        
原文链接:https://blog.csdn.net/WZZ18191171661/article/details/137937461

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1893231.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

实验九 存储过程和触发器

题目 创建并执行一个无参数的存储过程proc_product1,通过该存储过程可以查询商品类别名称为“笔记本电脑”的商品的详细信息:包括商品编号、商品名称、品牌、库存量、单价和上架时间信息 2、创建并执行一个带输入参数的存储过程proc_product2&#xff…

嵌入式实时操作系统:Intewell操作系统与VxWorks操作系统有啥区别

Intewell操作系统和VxWorks操作系统都是工业领域常用的操作系统,它们各有特点和优势。以下是它们之间的一些主要区别: 架构差异: Intewell操作系统采用微内核架构,这使得它具有高实时性、高安全性和强扩展性的特点。微内核架构…

力扣1685.有序数组中差绝对值之和

力扣1685.有序数组中差绝对值之和 记录左边之和 和 右边之和从左到右遍历每个元素 求res class Solution {public:vector<int> getSumAbsoluteDifferences(vector<int>& nums) {int n nums.size(),lsum 0,rsum accumulate(nums.begin(),nums.end(),0);ve…

Java-List集合堆内存溢出

Java-List集合堆内存溢出 情况一情况二对照分析对照规定堆内存 情况一 往List<Object>的集合中不断插入元素&#xff0c;集合底层的数组会不断扩容&#xff0c;从0 -> 10 -> 10 10>>1…。最终出现堆内存溢出&#xff0c;是在扩容数组大小的时候。这里的过程…

5款软件让电脑更方便,更快,更好看

​ 你有没有想过&#xff0c;有些软件能让你的电脑用起来更方便&#xff0c;更快&#xff0c;更好看&#xff1f; 1. 屏幕动画创作——Screen To Gif ​ Screen To Gif是一款功能强大的屏幕录制软件&#xff0c;专注于将屏幕上的动态内容转换为高质量的GIF动画。它不仅支持自…

眼动追踪技术 | 眼动的分类和模型

摘要 灵长类动物用于调整中央凹位置的正常眼动&#xff0c;几乎都可以归结为五种基本类型的组合&#xff1a;扫视、平稳追踪、聚散、前庭眼震和生理性眼震(与注视相关的微小运动)。聚散运动用于将双眼聚焦于远处的目标(深度知觉)。其他运动(如适应和聚焦)指的是眼动的非位置变…

生命在于学习——Python人工智能原理(3.2.2)

2.3 连续型随机变量 &#xff08;一&#xff09;定义 连续型随机变量即在一定区间内变量取值有无限个&#xff0c;或数值无法一一列举出来&#xff0c;例如某个地区男性健康成人的身高值、体重值。 如果对于随机变量X的分布函数F(X)&#xff0c;存在非负可积函数f(x)&#xf…

Okhttp hostnameVerifier详解

hostnameVerifier 方法简介核心原理参考资料 方法简介 本篇博文以Okhttp 4.6.0来解析hostnameVerfier的作用&#xff0c;顾名思义&#xff0c;该方法的主要作用就是鉴定hostnname的合法性。Okhttp在初始化的时候我们可以自己配置hostnameVerfier&#xff1a; new OkHttpClien…

ExtendSim在商业和服务行业中的仿真

仿真使企业能够做出明智的、数据驱动的预测&#xff0c;从而指导决策、产生积极成果并建立竞争优势。 精益分析 使用 ExtendSim 中的精益分析方法对欧洲的供应链网络进行建模&#xff0c;一家制造商实现了对最终客户的服务水平提高了 98%&#xff0c;而且现在可以在库存减少约 …

新手必学:TikTok视频标签的使用方法

想让你的TikTok视频火起来&#xff0c;就得用对标签。标签能帮你的作品被更多人看到&#xff0c;也更有利于推广&#xff0c;可以为品牌增加曝光度、吸引更多观众、提高转化率和借势热门话题。那么应该如何选择标签并使用标签呢&#xff0c;看完这篇分享你或许会有所启发&#…

dc-3靶机渗透

环境准备 dc-3靶机下载链接&#xff1a; https://download.vulnhub.com/dc/DC-3-2.zip 启动靶机遇到的问题解决文章在下面 http://t.csdnimg.cn/zLQAI kali最新版 dc-3靶机 两台机器都在vmware上运行 网络设置NAT模式 渗透过程 信息收集 首先使用ifconfig获取kali的IP地址 可…

【RflySim学习笔记】1.RflySim的绪论

目录 文章目录 目录1.RflySim 平台背景2.RflySim 平台特点3.RflySim 平台核心组件介绍3.1 CopterSim3.2 RflySim3D/RflySimUE5UE引擎&#xff1a;RflySim3D/RflySimUE5 3.3 QGroundControl地面站3.4 Python38Env3.5 MATLAB自动代码生成工具箱3.6 SITL/HITL批处理脚本3.7 PX4 Fi…

【已解决】: fatal error: cuda_runtime_api.h: No such file or directory

既然他找不到&#xff0c;我们就把路径给他写清楚&#xff01; 检查自己是不是有这个文件&#xff1a; 去路径/usr/local下&#xff0c;使用命令查询是否拥有该文件&#xff1a; find . -name cuda_runtime_api.h结果&#xff1a; 因为我要使用的是cuda-11.3&#xff0c;因…

Linux 摄像头编号固化

一、前言 在工业领域&#xff0c;一台设备会有很多个摄像头&#xff0c;可以使用命令&#xff1a;ll /dev/video* 进行查看&#xff1b; 在代码中&#xff0c;如果需要使用摄像头&#xff0c;那么都是需要具体到哪个摄像头编号的&#xff0c;例如 open("/dev/video4"…

Redis 五大数据类型底层原理

0、前言 本文涉及的主题&#xff1a; redis 对象存储 底层数据结构&#xff1a;int、embstr、raw、ziplist、listpack、quicklist、skiplist、intset、hashtable redis 数据类型&#xff1a;string、list、set、zset、hash 1、对象存储、底层编码、数据类型 1.1 对象存储…

SpringBoot实现多数据源切换快速入门

1. 概述 随着项目规模的扩大和业务需求的复杂化&#xff0c;单一数据源已经不能满足实际开发中的需求。在许多情况下&#xff0c;我们需要同时操作多个数据库&#xff0c;或者需要将不同类型的数据存储在不同的数据库中。这时&#xff0c;多数据源场景成为必不可少的解决方案。…

C#的多线程UI窗体控件显示方案 - 开源研究系列文章

上次编写了《LUAgent服务器端工具》这个应用&#xff0c;然后里面需要新启动一个线程去对文件进行上传到FTP服务器&#xff0c;但是新线程里无法对应用主线程UI的内容进行更改&#xff0c;所以就需要在线程里设置主UI线程里控件信息的方法&#xff0c;于是就有了此博文。此文记…

录屏怎么打开?这3招请收好

在数字化飞速发展的今天&#xff0c;录屏功能已经不仅仅是一个简单的工具&#xff0c;而是成为了我们工作、学习和娱乐中的得力助手。但是&#xff0c;不同设备或系统打开录屏功能的方式可能有所不同&#xff0c;打开录屏功能的方式也在不断更新和演变&#xff0c;今天我们就来…

【前端项目笔记】8 订单管理

订单管理 效果展示&#xff1a; 在开发功能之前先创建分支order cls 清屏 git branch 查看所有分支&#xff08;*代表当前分支&#xff09; git checkout -b order 新建分支order git push -u origin order 将本地的当前分支提交到云端仓库origin中命名为order 通过路由方式…

“工控机”是什么?和普通电脑有区别嘛!

在现代工业生产中,有一种特殊的计算机,它不像普通电脑那样被放置于明亮的办公室内,而是常常藏身于机器轰鸣、环境恶劣的工厂车间里,这就是工控机——工业控制计算机的简称。作为工业自动化领域不可或缺的核心设备,工控机不仅承载着监控与数据采集(SCADA)、过程控制、数据…