书生大模型实战营闯关 - 8GB显存玩转书生大模型demo

news2025/1/24 2:25:57

创建开发机

创建一个使用10%GPU算力,cuda12.2系统的开发机,并启动。由于开发机的IO性能较差,开发机共享盘中已经创建好了本次实验所需要的conda环境

# 启动共享的conda环境
conda activate /root/share/pre_envs/icamp3_demo

部署cli模型

创建目录

创建一个目录用于存放代码

mkdir -p /root/demo
touch /root/demo/cli_demo.py

编写代码

代码的主要逻辑是使用transformers加载共享目录下的internlm2-chat-1_8b模型

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# 模型地址
model_name_or_path = '/root/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b'

# 创建tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, trust_remote_code=True, device_map='cuda:0') # 运行在第0块显卡上

# 创建大语言模型
model = AutoModelForCausalLM.from_pretrained(model_name_or_path, trust_remote_code=True, device_map='cuda:0')

# 切换到评估模式,推理时不进行反向传播,可以节约内存
model = model.eval()

# 系统提示词
system_prompt = """You are an AI assistant whose name is InternLM(书生·浦语).
- InternLM(书生·浦语)is a conversational language model that is developed by Shanghai AI Laboratory (上海人工智能实验室). It is designed to be helpful, honest, and harmless.
- InternLM(书生·浦语)can understand and communicate fluently in the language chosen by the user such as English and 中文.
"""

# 对话历史记录
messages = [(system_prompt, '')]

print("====================Welcome to InternLM chatbot, type 'exit' to exit.=====================")

while True:
	input_text = input("\User >>> ")
	input_text = input_text.replace(' ', '')
	if input_text == 'exit':
		break
	length = 0
	for response, _ in model.stream_chat(tokenizer, input_text, messages):
		if response is not None:
			print(response[length:], flush=True, end='')
			length = len(response)

运行模型

接下来直接使用命令启动上面的模型

python /root/demo/cli_demo.py

cli部署模型

部署streamlit web demo

使用streamlit web demo来部署模型,可以给模型一个简单的web ui,交互对人类更加友好。

拉取代码

cd /root/demo
git clone https://github.com/InternLM/Tutorial.git

启动streamlit服务

代码中有streamlit服务的启动脚本,我们直接运行

cd /root/demo
streamlit run /root/demo/Tutorial/tools/streamlit_demo.py --server.address 127.0.0.1 --server.port 6006

streamlit服务启动

ssh连接远程开发机时,配置远程6006端口转发到本地

ssh -CNg -L 6006:127.0.0.1:6006 root@ssh.intern-ai.org.cn -p [你的ssh端口号]

访问streamlit服务

在本地机器上访问 http://localhost:6006 来访问demo。第一次访问后才会开始加载模型,需要等待一会。当出现以下画面时,服务已经启动成功了。
streamlit服务加载完毕
可以修改下左侧的推理参数,查看模型的输出效果。
streamlit测试
我把最大生成长度修改为8,模型输出变化很大。

LMDeploy部署InternLM-Xcomposer2-VL-1.8B模型

InternLM-XComposer2是一款基于InternLM2的视觉大模型,擅长自由形式的文本图像合成和理解。主要特点如下:

  • 自由形式的交错文本图像合成:可以根据大纲、详细文本要求和参考图像等不同的输入,生成连贯且上下文相关,具有交错图像和文本的文章,从而实现高度可定制的内容创建。
  • 准确的视觉语言问题解决:基于自由形式的指令准确地处理多样化和具有挑战性的视觉语言问答任务,在识别、感知、详细标签,视觉推理等方面表现出色。
  • 令人惊叹的性能:基于InternLM2-7B的InternLM2-XComposer2在多个基准测试中位于开源多模态模型第一梯队,在部分基准测试中与GPT-4v和gemini Pro相当,甚至超过它们。

LMDeploy是一个用于压缩、部署和服务LLM的工具包,由MMRazor和MMDeploy团队开发。它具有以下核心功能

  • 高效的推理:LMDeploy通过引入 持久化批处理、块KV缓存、动态分割与融合、张量并行、高性能CUDA内核等关键技术,提供了比vLLM高1.8倍的推理性能。
  • 有效的量化:LMDeploy支持仅权重量化和k/v量化,4bit推理性能是FP16的2.4位。量化后的模型质量已经通过OpenCompass评估确认
  • 轻松的分发:利用请求分发服务,LMDeploy可以在多台机器和设置上轻松高效地部署多模型服务
  • 交互式推理模式:通过缓存多轮圣诞过程中注意力的k/v,推理引擎记住对话历史,从而避免重复处理历史会话
  • 优秀的兼容性:LMDeploy运行KV Cache Quant,AWQ和自动前缀缓存同时使用

LMDeploy已经支持了InternLM-XComposer2系列的部署,但要注意的是它仅支持InternLM-XComposer2系列模型的视觉对话功能。

启动gradio服务

conda activate /root/share/pre_envs/icamp3_demo
lmdeploy serve gradio /share/new_models/Shanghai_AI_Laboratory/internlm-xcomposer2-vl-1_8b --cache-max-entry-count 0.1

lmdeploy启动gradio过程1

访问gradio服务

和上面一样,在ssh连接时创建端口映射,在本地打开即可。
gradio服务测试
使用lmdeploy启动的服务,不用等待模型的首次加载,在启动阶段模型就已经加载完毕了。
gradio服务测试2
响应速度非常快。

LMDeploy 部署InternVL2-2B模型

InternVL2是上海人工智能实验室推出的新一代视觉-语言多模态大模型,是首个综合性能媲美美国闭源商业模型的开源多模态大语言模型。InternVL2系列从千亿参数到端侧小模型全覆盖,通专融合,支持多种模态。

LMDeploy也支持部署InternVL2系列模型的部署

启动gradio服务

conda activate /root/share/pre_envs/icamp3_demo
lmdeploy serve gradio /share/new_models/OpenGVLab/InternVL2-2B --cache-max-entry-count 0.1

启动gradio服务2

访问gradio服务

和上面一样,在ssh连接时创建6006端口映射,在本地打开即可。
gradio测试3
可以发现InternVL2模型的效果似乎比InternLM-XComposer2还要好

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1963119.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

解读Solana流动性质押发展现状:市场格局的悄然转变

随着区块链技术的发展和去中心化金融(DeFi)生态系统的壮大,流动性质押(Liquid Staking)已经成为市场中的热门话题。尽管以太坊在这一领域占据了主导地位,但Solana也在快速追赶,并展现出其独特的…

微服务事务管理(分布式事务问题 理论基础 初识Seata XA模式 AT模式 )

目录 一、分布式事务问题 1. 本地事务 2. 分布式事务 3. 演示分布式事务问题 二、理论基础 1. CAP定理 1.1 ⼀致性 1.2 可⽤性 1.3 分区容错 1.4 ⽭盾 2. BASE理论 3. 解决分布式事务的思路 三、初识Seata 1. Seata的架构 2. 部署TC服务 3. 微服务集成Se…

通俗易懂生成式人工智能(Generative AI)

生成式人工智能(Generative AI) 人工智能是目标,生成式人工智能就是我们的目标之一。 基本概念 什么是生成式人工智能? 生成式人工智能就是让机器产生复杂的、有结构的物件,如:文本、语音、图像等。而这…

笔试练习day1

目录 数字统计题目解析解法(枚举数字拆分)代码 两个数组的交集题目解析解法哈希表代码 点击消除题目解析解法栈代码 感谢各位大佬对我的支持,如果我的文章对你有用,欢迎点击以下链接 🐒🐒🐒 个人主页 🥸🥸&#x1f97…

4 款最佳 C# 无头浏览器

摘要: 在当今大数据时代,高效的数据采集成为众多项目的关键一环。对于偏好C#语言的开发者而言,无头浏览器是实现网页自动化交互、数据抓取的强大工具。本文将深入探讨四款顶尖的C#无头浏览器库,分析它们的特性和应用场景&#xf…

No J-Link found

线拔了,重插即可,顺便按按板子上的按钮 这里配置如下图

根据需求修改el-tab的默认样式

根据需求修改el-tab的默认样式 样式代码&#xff1a; <style lang"scss" scoped>//去掉了最下面的那条线:deep(.el-tabs--card > .el-tabs__header){border-bottom: none}//单独给每一项添加下边框、修改背景色:deep(.el-tabs--card > .el-tabs__heade…

多人协作不“撞车”,可道云teamOS网盘的编辑锁功能你知道吗?

在团队协作的世界里&#xff0c;文件编辑就像是一条繁忙的街道&#xff0c;每个人都是驾驶者&#xff0c;试图在文件上留下自己的痕迹。想象一下&#xff0c;如果没有任何规则和秩序&#xff0c;这条街道将会是一片混乱&#xff0c;编辑冲突和版本“撞车”将会频频发生。 今天…

Gartner发布2024年数据安全成熟度曲线:人工智能和量子计算驱动的32项数据安全相关技术发展变化

安全和风险管理领导者正在为当今人工智能和未来量子计算的影响做准备。合成数据、后量子密码学和此技术成熟度曲线上的其他创新可以帮助降低数据安全和隐私风险并实现业务目标。 需要知道的 过去几年&#xff0c;随着人工智能的使用以及隐私和人工智能相关立法的不断加强&…

idea mapper.xml跳转到databse对应的表或字段

idea mapper.xml跳转到databse对应的表或字段 1、安装Database Navigator插件 2、配置数据类型 setting- > language -> sql Dialects中 的选项设为 对应的数据库 3、链接数据库

最新盘点!国内外10款超热门的CRM系统对比!

在数字化时代&#xff0c;企业对于高效、智能的管理系统需求日益增加。无论是RM系统还是其他各类管理工具&#xff0c;都成为了企业提升竞争力的关键。本文将围绕国内外十款超热门的CRM系统展开对比&#xff0c;从公司背景、专业实力、产品核心能力以及解决方案能力四个维度进行…

DNS查询服务器的基本流程以及https的加密过程

DNS查询服务器的基本流程&#xff0c;能画出图更好&#xff0c;并说明为什么DNS查询为什么不直接从单一服务器查询ip&#xff0c;而是要经过多次查询&#xff0c;多次查询不会增加开销么&#xff08;即DNS多级查询的优点&#xff09;&#xff1f; 用户发起请求&#xff1a;用户…

找到/打开pupprteer对应chrome版本

前期提要&#xff1a;导出pdf的时候&#xff0c;会用pupprteer启动一个浏览器实例&#xff0c;再打开指定页面进行打印&#xff0c;页面写成什么样&#xff0c;导出的pdf内容就是什么样&#xff0c;听起来很正常。 但是遇到了调试的时候页面显示很正常&#xff0c;而导出的内容…

echarts柱状图——堆叠、多柱堆叠,并在顶部展示总和

实现的效果 要求 1、堆叠数据 2、可以有多个柱子堆叠 3、要展示每个堆叠柱子的总和 options配置 const xData ["周一", "周二", "周三", "周四", "周五", "周六", "周日"]; const morningIncome …

chrome/edge浏览器插件开发入门与加载使用

同学们可以私信我加入学习群&#xff01; 正文开始 前言一、插件与普通前端项目二、开发插件——manifest.json三、插件使用edge浏览器中使用/加载插件chrome浏览器中使用/加载插件 总结 前言 chrome插件的出现&#xff0c;初衷可能是为了方便用户更好地控制浏览器&#xff0c…

数据结构与算法-二分搜索树

&#x1f49d;&#x1f49d;&#x1f49d;首先&#xff0c;欢迎各位来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里不仅可以有所收获&#xff0c;同时也能感受到一份轻松欢乐的氛围&#xff0c;祝你生活愉快&#xff01; 文章目录 引言一、二分搜…

[ONVIF系列 - 01] 简介 - 设备发现 - 相关工具

1.背景知识 这个事项对我而言是个新知&#xff0c;我从&#xff1a;https://www.cnblogs.com/liwen01/p/17337916.html 跳转到了&#xff1a;ONVIF协议网络摄像机&#xff08;IPC&#xff09;客户端程序开发&#xff08;1&#xff09;&#xff1a;专栏开篇_onvif 许振坪-CSDN…

数字人直播系统搭建能力评测!3招教你快速摸清源码厂商的真实实力?

随着数字人直播的应用场景不断拓展和应用频率的持续升高&#xff0c;其所蕴含着的市场前景和收益潜力逐渐显现&#xff0c;连带着数字人直播系统搭建的热度也迎来了新的高潮。在此背景下&#xff0c;作为非科班和研发资源有限的创业者们主要的入局途径&#xff0c;各大数字人源…

Vatee万腾平台:智能管理领域的稳健前行者

在数字经济飞速发展的今天&#xff0c;企业管理模式正经历着前所未有的变革。智能化管理&#xff0c;作为这场变革的核心驱动力&#xff0c;正逐步渗透到企业的每一个角落。而在这场智能化浪潮中&#xff0c;Vatee万腾平台以其稳健的步伐和前瞻的视野&#xff0c;成为了智能管理…

【LLM大模型】一个小时内快速部署大模型

这个教程有以下几部分构成&#xff1a; 硬件配置概念介绍实操测试结果 1.硬件配置 本文使用的方法配置要求低&#xff0c;没有gpu也可以正常使用(就是有点慢)&#xff0c;不管是windows 还是linux&#xff0c;都可以无障碍使用大模型&#xff0c;有脚就行&#xff0c;废话少…