书生大模型实战营第三期_L2-LMDeploy 量化部署进阶实践(81班1101作业)

news2024/9/24 1:26:50

大模型的痛点

  1. 大模型的计算量是非常大的

 

2. 显存的相应区域是非常大的 

 

3.访存瓶颈 

 

  1. GPU的大部分时间都花在数据交换上面
  2. 不断拉高batchsize,不断地提高计算的访存比是不是会有较好的效果呢?这是一个很好的想法,但是显存不够就会很尴尬
  3. 为了能够更好的利用GPU进行推理,一般输入的tensor一般是要长度相同的,长度如果不相同的话,如果并行推理就会导致短tensor要去等待长tensor,导致的是GPU一段时间内进行摸鱼

大模型常用的大模型部署方法

  1. 大模型剪枝(减少模型的参数)
    1. 移除个别参数,不考虑整体的网络结构,
    2. 可以查阅相关文献
  2. 知识蒸馏(减少模型的参数)
    1. 先训练一个大模型,教师模型
    2. 然后再用这个大模型去训练一个小模型
  3. 模型量化(可以损失一些模型的精度)
    1. 把浮点数转化为整数等等,可以减少存储空间
    2. 推理速度加快
      1. 先把整数转化为浮点数,计算完成了之后再转化为整数然后再储存起来
      2. 加快主要是整数的传输更加快,而不是计算整数更快,计算使用的还是浮点数

LMDeploy

  1. TurboMind是推出的高效的推理引擎
  2. 实现了LLaMa结构模型的支持 Imdeploy chat -h
  3. 模型的量化压缩
  4. 服务化的部署
    1. 将LLM封装为HTTP 的API,支持Triton扩展
    2. 同时支持多模态的视觉大模型
    3. 支持第三方的大模型的部署,我们可以使用ChatGLM2试一试

 

  1. 安装部署LMDeploy
    1. 参见https://github.com/InternLM/Tutorial/blob/camp2/lmdeploy/README.md的教程
    2. 使用Cuda12.2-conda,低版本的会不兼容
  2. LMDeploy模型对话(chat)
    1. HuggingFace和TurboMind
      1. 但是TurboMind只能用TurboMind格式的模型,如果使用HuggingFace的模型那么需要转化为TurboMind格式的模型
  3. 可以在开发机上下载模型
    1. 因为InternStudio开发机上集成了常用的权重的文件
    2. 可以在OpenXLab平台下载模型

 

实操部分(作业) 

  1. 环境部署
  2. 使用命令行与之进行对话

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1996523.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【youcans动手学模型】YOLO5 实战(中)训练目标检测模型

欢迎关注『youcans动手学模型』系列 本专栏内容和资源同步到 GitHub/youcans YOLO5 实战 (上)环境配置与测试 【youcans动手学模型】YOLO5 实战(中)使用自己的数据集训练目标检测模型 1. 准备训练数据集1.1 开源数据集1.2 YOLOv5 …

k8s1.18.0完整部署教程

k8s的官网地址:https://kubernetes.io/docs Kubernetes 也称为 K8s,是一个开源系统,用于自动化容器化应用程序的部署、扩展和管理。 K8s通过各种资源对象来管理pod相关的功能,借助pod本身的功能实现大规模容器应用的自动化管理&…

享界S9+问界M9,华为智选车的高端局

作者 |老缅 编辑 |德新 8月6日,鸿蒙智行在北京发布D级纯电旗舰轿车,也是北汽 - 华为智选车合作的第一款车型,享界S9。 享界S9搭载了包括华为乾崑ADS 3.0在内的多项首发技术,全系标配100kWh华为800V巨鲸电池。 而在价格上&#…

mysql⑥:约束

一,概念 例子: 外键约束 例子: 外键的删除和更新

从商业角度分析,充电桩还能赚钱吗?

一、投入与产出 1、投入 是建设成本,包括设备(箱变、充电设备、电缆等)、土建和配套(雨棚、照明、监控等)。二是运营成本,包括租金、人工、电损等。 2、产出 充电手续费以及增值服务(停车费…

力扣高频SQL 50题(基础版)第三十八题之1484.按日期分组销售产品

文章目录 力扣高频SQL 50题(基础版)第三十八题1484.按日期分组销售产品题目说明实现过程准备数据实现方式结果截图总结 力扣高频SQL 50题(基础版)第三十八题 1484.按日期分组销售产品 题目说明 表 Activities: ---…

shell的条件测试

为了能够正确处理Shell程序运行过程中遇到的各种情况,Linux Shell提供了一组测试运算符。 通过这些运算符,Shell程序能够判断某种或者几个条件是否成立。 条件测试在各种流程控制语句,例如判断语句和循环语句中发挥了重要的作用,所…

算法训练.

一.扩散 题解&#xff1a; 计算点之间的距离&#xff0c;然后对图进行处理即可&#xff0c;这个数据规模较小&#xff0c;因此我使用了floyd,还有最小生成树和二份答案加并查集的写法&#xff1b; 代码&#xff1a; #include <iostream> #include <cstring> #in…

微信小程序流量主收益

小程序流量主已经开通三天了,目前收益1.42,,,,,,,,,,,,,,,不过确实点击量不怎么多 再附上我的流量主小程序 点击量如果上去的话,收益应该还是可观的,有想开流量主的任何问题都可以骚扰我,,对小程序有任何意见也欢迎反馈~ 一起进步,一起学习~

CentOS linux 安装openssl(openssl拒绝服务漏洞【CVE-2022-0778】解决)

一、安装 1.下载相关openssl包 下载地址&#xff1a; https://www.openssl.org/source/ 2.将下载好的压缩包放到 /app/server/nginx 路径下&#xff08;根据自己实际需求定义&#xff09; 3.切换至该路径 cd /app/server/nginx4.压缩包解压 压缩包解压 &#xff1a;tar -…

矩阵算法的介绍和实现

一. 介绍 首先我们要清楚矩阵是什么&#xff1a;矩阵是一个按照长方阵列排列的复数或实数集合 1> 定义 定义&#xff1a;mn矩阵为mn个数排成的m行n列的表格&#xff0c;当mn时&#xff0c;矩阵A称为n阶方阵或者n阶矩阵。零矩阵&#xff1a;矩阵所有元素都为0。同型矩阵&a…

Centos7.6配置阿里云镜像源

1、备份本地镜像源&#xff0c;将/etc/yum.repos.d/下所有文件备份到/etc/yum.repos.d/bak/下 2、下载阿里云镜像 wget -O /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.com/repo/Centos-7.repo 3、清除yum缓存-yum clean all 4、验证镜像源仓库 yum repolist

Redis漏洞复现【vulhub靶场】

步骤一&#xff1a;打开靶场 进入目录:cd /vulhub-master/redis/4-unacc 启动:docker-compose up -d 检查:docker-compose ps 步骤二&#xff1a;打开kali在kali安装redis程序 #安装redis apt-get install redis #redis链接 redis-cli -h 192.168.4.176-p 6379#redis常见命令 (…

智慧合规与合同管理是未来企业竞争力的关键

在法律和市场规则日益完善的当代&#xff0c;企业合规是公司治理的核心。它像是一道紧箍咒&#xff0c;确保企业遵循法律法规&#xff0c;避开违规风险&#xff1b;同时也是一枚护身符&#xff0c;保护企业免受不必要的诉讼和罚款&#xff1b;更加是企业竞争力的体现&#xff0…

使用 Prometheus 和 Grafana 监控 FastAPI 服务

在现代应用开发中&#xff0c;监控和可视化服务的运行状态和性能指标对于保证系统稳定性至关重要。本文将介绍如何使用 Prometheus 和 Grafana 对 FastAPI 服务进行监控和可视化&#xff0c;并展示如何通过 prometheus_fastapi_instrumentator 将 FastAPI 应用与 Prometheus 集…

zabbix监控1

1、概念 自带图形化界面&#xff0c;通过网页就可以监控所有服务器的状态。 事件告警、邮件通知 web界面提供的分布式监控以及网络监控功能的开源的企业级的软件解决方案 zabbix可以提供各种类型的监控模版&#xff0c;保证服务器的正常运行&#xff0c;灵活的通知机制可以…

惠海 H7303 DCDC线性恒流IC PWM调光无电感低压差大电流 9V 12V 24V 30V球泡灯/转向灯方案

H7303是一种带PWM调光功能的线性降压恒流LED驱动器&#xff0c;仅需外接一个电阻就可以构成一个完整的LED恒流驱动电路,调节该外接电阻就可以调节输出电流&#xff0c;输出电流可调范围为16~2000mA。H7303内置过热保护功能&#xff0c;可有效保护芯片&#xff0c;避免因过热而造…

【经验分享】ShardingSphere+Springboot-04:自定义分片算法(COMPLEX/STANDARD)

文章目录 3.4 CLASS_BASED 自定义类分片算法3.4.1 复杂分片自定义算法&#xff08;strategyCOMPLEX &#xff09;3.4.2 STANDARD 标准分片自定义算法## 进阶:star: 自定义算法范围查询优化 3.4 CLASS_BASED 自定义类分片算法 3.4.1 复杂分片自定义算法&#xff08;strategyCOM…

Windows 10 /11 系统上安装Arc浏览器!超详细的教程

Arc浏览器在在发布以后&#xff0c;给人留下了相当不错的第一印象。 简洁的界面设计,巧妙的操作逻辑,使用过后让人爱不释手,体验出众&#xff01;目前官方提供了Windows 11 和 Mac版 官方下载&#xff1a;【链接直达】 如果你是Windows 10系统&#xff0c;由于官方没有直接提…

加固三防笔记本电脑:保护数据安全的首选设备

随着信息技术的飞速发展&#xff0c;笔记本电脑早已成为现代生活中不可或缺的工具。然而&#xff0c;普通的笔记本电脑无法适应一些特殊的环境&#xff0c;在数据安全保护方面也有着一定的风险。加固三防笔记本电脑则是保护数据安全的首选设备。下面将介绍加固三防笔记本电脑的…