InternLM2-lesson5

news2025/1/11 4:00:30

目录

  • 大模型部署
    • 挑战
    • 常用大模型部署方式
      • 模型剪枝(Pruning)
      • 知识蒸馏
      • 量化
    • LMDeploy
      • 核心功能
      • 性能表现
      • 支持部署的模型
  • 作业
    • 配置 LMDeploy 运行环境
    • 以命令行方式与 InternLM2-Chat-1.8B 模型对话

大模型部署

大模型部署就是将大模型在特定的环境种运行!可以部署到服务器端:CPU\单GPU\TPU\NPU;还可以部署到移动端:机器人\手机等

挑战

  • 计算量巨大
    20B模型每生成一个token,大约需要进行406亿次的浮点计算;
    单张NVIDIA A100,理论上进行FP16运算性能为每秒77.97TFLOPs,约77万亿。
    所以如果生成更多的token,如果模型参数量更大一点的话,对显卡的性能要求会更高!
    在这里插入图片描述
    下图是InternLM2大模型向前推理的计算量估算:
    在这里插入图片描述

  • 显存开销巨大
    20B模型加载参数至少需要40G显存,175B模型(GPT-3)需要350G+显存;
    大模型在推理过程中还会产生缓存,以FP16为例,在batch-size为16,输入512tokens,输出32tokens的情况下,20B模型就会产生10.3GB的缓存;
    目前,单张NVIDIA RTX4060显卡的显存为8GB,单张NVIDIA A100的显存为80GB
    在这里插入图片描述
    下图是InternLM2大模型前向推理的缓存占用空间:
    在这里插入图片描述

  • 访存瓶颈
    由于硬件计算速度远快于显存带宽,会存在严重的访存性能瓶颈;
    以RTX 4090推理175B大模型为例,BS为1时计算量为6.83TFLOPs,远低于82.58TFLOPs的FP16计算能力,但访存量为32.62TB(这里的B代表字节),是显存带宽每秒处理能力的30倍
    在这里插入图片描述

  • 动态请求
    请求量不确定
    请求时间不确定
    Token逐个生成,生成数量不确定

常用大模型部署方式

模型剪枝(Pruning)

剪枝就是移除模型种不必要的组件,如参数,使模型更加高效。

  • 非结构化剪枝
    移除个别参数,不考虑整体模型结构
  • 结构化剪枝
    移除连接或分层结构,保持整体网络结构。

知识蒸馏

核心思想是通过引导轻量化的学生模型“模仿”性能更好、结构更复杂的教师模型,在不改变学生模型结构的情况下提高性能。

  • 上下文学习(ICL)
  • 思维链(CoT)
  • 指令跟随(IF)

在这里插入图片描述

量化

浮点数转换为整数或其他离散形式,减轻模型的存储和计算负担

  • 量化感知训练(QAT)
  • 量化感知微调(QAF)
  • 训练后量化(PTQ)

LMDeploy

LMDeploy是涵盖了LLM任务的全套轻量化、部署和服务解决方案。核心功能包括高效推理、可靠量化、便捷服务和有状态推理

核心功能

在这里插入图片描述

性能表现

在这里插入图片描述

支持部署的模型

在这里插入图片描述

作业

配置 LMDeploy 运行环境

在这里插入图片描述

以命令行方式与 InternLM2-Chat-1.8B 模型对话

启动模型
在这里插入图片描述
开启对话
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1624224.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

The Clock and the Pizza [NeurIPS 2023 oral]

本篇文章发表于NeurIPS 2023 (oral),作者来自于MIT。 文章链接:https://arxiv.org/abs/2306.17844 一、概述 目前,多模态大语言模型的出现为人工智能带来新一轮发展,相关理论也逐渐从纸面走向现实,影响着人们日常生活…

VPP 源码学习总结

当我们在VPP/plugins目录下注册了自己的node后, 肯定有一个node.func(), 那这个函数是如何执行到的呢: 1. 首先我们要看一下这个插件注册的时候做了什么, 假设node 如下: 编译成功后, 我们可以从函数vlib_plugin_earl…

ubuntu20.04开机运行java的sh脚本

用到了 rc.local 1、修改 /usr/lib/systemd/system/rc-local.service 在最下面添加 [Install] WantedBymulti-user.target 2、 系统没有 rc.local,需要手动创建 cd /etc vi rc.local在里面写入 /opt/start.sh chmod x /etc/rc.local # 添加可执行权限 chmod x…

三分钟设计自己的工厂!基于昇腾AI处理器昇思MindSpore打造的智能化工大模型为化工研发效率带来10+倍提升

前言:华为与大连化物所深度合作,联合推出智能化工大模型,AI赋能化工领域,拥抱科学创新,提供了数据驱动化工研发的新范式。 2024年3月22日,在北京国家会议中心召开的昇思人工智能框架峰会上发布了由华为AI4…

mysql的约束和表关系

根据查询的结果,复制出一个新表 create table newTable AS select * from oldTable; create table newPeople AS select * from day2_test.people; 约束 引入:如果某一列如id列,有重复的数据,无法准确定位,有的列有空…

【JVM】java内存区域

目录 一、运行时数据区域 1、方法区 2、堆 3、虚拟机栈 4、本地方法栈 5、程序计数器 6、运行时常量池 二、HotSpot虚拟机的对象 1、对象的创建 指针碰撞: 空闲列表: 2、对象的内存布局 对象头 实例数据 对齐填充 3、对象的访问定位 句…

SNETCracker--超级弱口令检查工具简介

一、简介 SNETCracker 超级弱口令检查工具是一款Windows平台的弱口令审计工具,支持批量多线程检查,可快速发现弱密码、弱口令账号,密码支持和用户名结合进行检查,大大提高成功率,支持自定义服务端口和字典。 二、SNE…

C++认知

如何成为一名合格的C/C开发者 C/C 的当前应用领域 C 的应用领域目前有三大类,第一类就是我们目前见到的各种桌面应用软件,尤其 Windows 桌面软件,如 QQ、安全类杀毒类软件(如金山的安全卫士,已开源,其代码…

点燃营销力量!利用淘宝商品关键词搜索电商API接口引爆销售

随着电子商务的快速发展,利用API接口引爆销售已成为许多企业的关键策略。淘宝作为中国最大的电商平台,其商品关键词搜索API接口极具潜力。联讯数据将详细介绍淘宝商品关键词搜索电商API接口的功能与应用,并探讨如何通过该接口点燃营销力量&am…

队列的实现(c语言实现)

队列的定义 队列(Queue)是一种特殊的线性数据结构,它遵循先进先出(FIFO,First In First Out)的原则。这意味着最早被添加到队列中的元素将是最先被移除的元素。队列的主要操作包括入队(enqueue…

openGauss学习笔记-271 openGauss性能调优-TPCC性能调优测试指导-测试MOT-TPCC性能

文章目录 openGauss学习笔记-271 openGauss性能调优-TPCC性能调优测试指导-测试MOT-TPCC性能271.1 TPC-C简介271.2 系统级优化271.3 BenchmarkSQL:开源TPC-C工具271.4 运行基准271.5 结果报告 openGauss学习笔记-271 openGauss性能调优-TPCC性能调优测试指导-测试MO…

Apifox接口调试工具

1、Apifox简介 Apifox 是集 API 文档、API 调试、API Mock、API 自动化测试多项实用功能为一体的 API 管理平台,定位为 Postman Swagger Mock JMeter。旨在通过一套系统、一份数据,解决多个工具之间的数据同步问题。只需在 Apifox 中定义 API 文档&a…

【题解】牛客挑战赛 71 - A 和的期望

原题链接 https://ac.nowcoder.com/acm/problem/264714 思路分析 快速幂求逆元 费马小定理: a MOD − 1 ≡ 1 ( m o d M O D ) a^{\text{MOD}-1} \equiv 1 \pmod{MOD} aMOD−1≡1(modMOD),可以转换为 a ⋅ a MOD − 2 ≡ 1 ( m o d M O D ) ① a \cd…

部署zabbix代理服务器

一、准备环境 1.1 关闭防火墙 二、代理服务器 2.1 设置zabbix下载源 2.2 编辑resolv配置文件,加入本机IP 2.3 安装zabbix数据库 2.4 开机自启服务,mysql重定义 2.5 添加数据库用户以及zabbix数据库信息 2.6 导入数据库 2.7 编辑zabbix配置文件 vim /etc/…

【文章转载】Lance Martin的关于RAG的笔记

转载自微博黄建同学 从头开始学习 RAG,看Lance Martin的这篇笔记就行了,包含了十几篇论文和开源实现! —— 这是一组简短的(5-10 分钟视频)和笔记,解释了我最喜欢的十几篇 RAG 论文。我自己尝试实现每个想…

开源协议与商业许可:选择与遵循

文章目录 开源协议MIT许可证(MIT License)BSD许可证(BSD License)Apache许可证 2.0(Apache License 2.0)GNU宽松通用公共许可证(GNU Lesser General Public License,LGPL&#xff09…

线上论坛自动化测试

文章目录 前言一、测试用例设计二、自动化测试1.登录功能2.注册功能3.发布帖子4.删除帖子5.修改帖子6.帖子详情7.个人中心8.通过suite套件总测试 前言 对论坛项目进行测试用例编写,通过 Selenium JUnit 单元测试框架对项目的功能进行自动化测试。 论坛项目的部分…

Hive主要介绍

Hive介绍 hive是基于 Hadoop平台操作 HDFS 文件的插件工具 可以将结构化的数据文件映射为一张数据库表 可以将 HQL 语句转换为 MapReduce 程序 1.hive 是由驱动器组成,驱动器主要由4个组件组成(解析器、编译器、优化器、执行器) 2.hive本身不…

CHARLS轻松发二区,只用了COX回归模型 | CHARLS CLHLS CFPS 公共数据库周报(4.3)...

零基础CHARLS发论文,不容错过! 长期回放更新指导!适合零基础,毕业论文,赠送2011-2020年CHARLS清洗后的数据全套代码! CHARLS公共数据库 CHARLS数据库简介中国健康与养老追踪调查(China Health and Retireme…

揭秘神器:智能私信破局获客难!

在数字营销的海洋中,每个企业都如同一艘努力航行的船,希望能在广阔的客户蓝海中获得丰收。然而,现实却往往充满挑战,尤其是当面对如何吸引并维系客户这一核心难题时。传统的获客手段逐渐显得力不从心,而智能科技的介入…