mamba_ssm和causal-conv1d详细安装教程

news2025/3/1 12:56:06

1.前言

Mamba是近年来在深度学习领域出现的一种新型结构,特别是在处理长序列数据方面表现优异。在本文中,我将介绍如何在 Linux 系统上安装并配置 mamba_ssm 虚拟环境。由于官方指定mamba_ssm适用于 PyTorch 版本高于 1.12 且 CUDA 版本大于 11.6 的环境。本示例中,我们使用的是 Python 3.8、PyTorch 2.2.2 和 CUDA 11.8,此外,我们还将安装 mamba_ssm 1.1.3 和 causal-conv 1.1.3。

由于官方给出的whl文件仅支持Linux系统,因此本文也是基于LInux系统的操作!!!

2.准备工作

  • 操作系统:Linux 系统(以Ubuntu为例)

  • PyTorch 版本:2.2.2

  • CUDA 版本:11.8

  • Python 版本:3.8

  • mamba_ssm:1.1.3

  • causal-conv:1.1.3

3.安装流程

3.1. 创建虚拟环境

首先,我们需要创建一个虚拟环境来安装依赖包。我们将使用 Python 3.8 创建环境,并命名为 Mamba_py38。

conda create -n Mamba_py38 python=3.8

激活新创建的虚拟环境:

conda activate Mamba_py38

3.2. 安装 GPU 版本的 PyTorch

接下来,我们将安装适用于 CUDA 11.8 的 PyTorch 2.2.2 版本。可以去Pytorch官方网站中复制安装指令。(过程可能有点慢,安装不成功可以多尝试几次)

conda install pytorch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 pytorch-cuda=11.8 -c pytorch -c nvidia

3.3. 安装 mamba_ssm 和 causal-conv

由于这两个包直接pip install安装不能实现,我们将下载它们的 .whl 文件,并使用 pip 离线安装。

步骤:

3.3.1.下载 mamba_ssm 和 causal-conv 的 .whl 文件(不想下载的也可以私信我,直接发你whl文件)。

  • 访问 mamba_ssm release page 和 causal-conv release page,这里我选择的都是1.1.3的版本,注意一定要保证这两个包的版本一致!!!

点击蓝色链接就会自动下载whl文件
点击蓝色链接就会自动下载whl文件
  • 选择与你的环境兼容的 .whl 文件,这里我的环境中装的是Python 3.8、PyTorch 2.2.2 和 CUDA 11.8。

cu118表示cuda11.8,torch2.2表示pytorch2.2,cp38表示python3.8

下载好的两个whl文件

3.3.2.使用 pip 离线安装这两个包:

首先要在终端进入到两个whl文件所在的路径,比如现在两文件的目录是:/home/zp/mfb/app_app/。

我需要在终端输入:cd mfb/app_app/

终端指令

接着就分别安装:pip install +文件名

pip install causal_conv1d-1.1.3+cu118torch2.2cxx11abiFALSE-cp38-cp38-linux_x86_64.whl

pip install mamba_ssm-1.1.3+cu118torch2.2cxx11abiFALSE-cp38-cp38-linux_x86_64.whl

4. 安装必要的包

我们还需要安装一些常用的 Python 库,确保我们的开发环境中具备绘图、数据处理等功能。以下是所需包及其版本(都已经验证过与环境适配):

pip install matplotlib==3.7.0 
pip install numpy==1.24.3 
pip install pandas==1.2.0 
pip install tensorboard==2.14.0 
pip install einops==0.8.1

5.总结

通过上述步骤,已经成功创建了一个可以使用Mamba的虚拟环境。

# 测试 
from causal_conv1d import causal_conv1d_fn, causal_conv1d_update

from mamba_ssm.ops.triton.selective_state_update import selective_state_update

有时间会更新安装视频,敬请期待!

撰写不易,喜欢的话,赞同收藏点赞支持下吧!

有问题私信或评论,看到会第一时间回复!

关注我,持续更新科研学习过程中遇到的问题!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2307896.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Ruby基础

一、字符串 定义 283.to_s //转为string "something#{a}" //定义字符串,并且插入a变量的值 something//单引号定义变量 %q(aaaaaaaaa) // 定义字符串,()内可以是任何数,自动转义双引号%Q("aaaaa"…

Flutter的permission_handler插件检查iOS的通知权限不准确

今天,做好了一个功能,就是在app内检查用户有没有给当前APP打开通知权限, 如果没打开,就展示一个 banner ,让用户去点击banner去打开权限 。 android上测试得非常顺利, 结果, 在iOS 上就是不…

vue使用a-table设置自定义合并字段实现某字段值相同则合并行

背景: 笔者前端使用ant-design-vue,二次开发了a-table,但a-table组件的属性方法都可以用; 业务需求:物资存放在不同的仓库,显示物资统计表格,以物资分组合并显示物资名称、总数量(物资A在所有库房总数量&a…

Docker容器日常维护常用命令大全

友情提示:本文内容由银河易创(https://ai.eaigx.com)AI创作平台deepseek-v3模型生成,文中所有命令未进行验证,仅供参考。请根据具体情况和需求进行适当的调整和验证。 引言 Docker作为当前最流行的容器化技术&#xf…

《昇腾推理服务器+DeepSeek大模型》技术培训在图为科技成功举办

2月17日,华为政企业务团队受邀莅临图为科技深圳总部,并成功举办了一场聚焦于《昇腾推理服务器DeepSeek大模型》的专业知识培训。 此次培训活动不仅深化了双方的技术交流,更标志着昇腾AI与DeepSeek大模型的全面融合应用即将迈入实质性落地的新…

DeepSeek开源周Day5: 3FS存储系统与AI数据处理新标杆

项目地址: GitHub - deepseek-ai/3FS: A high-performance distributed file system designed to address the challenges of AI training and inference workloads.GitHub - deepseek-ai/smallpond: A lightweight data processing framework built on DuckDB and…

FastAPI系列:如何配置跨域访问(CORS)

默认情况下,FastAPI应用程序不允许来自不同来源的请求。当你有一个前端应用程序与后端API通信,并且它们托管在不同的域或端口上时,在FastAPI中允许来自不同来源的请求是一种常见的场景。这被称为CORS(跨域资源共享)&am…

Flutter 学习之旅 之 flutter 在 Android 端进行简单的打开前后相机预览 / 拍照保存

Flutter 学习之旅 之 flutter 在 Android 端进行简单的打开前后相机预览 / 拍照保存 目录 Flutter 学习之旅 之 flutter 在 Android 端进行简单的打开前后相机预览 / 拍照保存 一、简单介绍 二、简单介绍 camera 三、安装 camera 四、简单案例实现 五、关键代码 一、简单…

【Vue3 Teleport 技术解析:破解弹窗吸附与滚动列表的布局困局】

🌟 Vue3 Teleport 技术解析:破解弹窗吸附与滚动列表的布局困局 🌍 背景:传统组件嵌套的布局之痛 在传统前端开发中,组件往往被严格限制在父级 DOM 结构中,这导致三大典型问题: 层级监禁 &…

VBA技术资料MF276:在集合中使用键

我给VBA的定义:VBA是个人小型自动化处理的有效工具。利用好了,可以大大提高自己的工作效率,而且可以提高数据的准确度。“VBA语言専攻”提供的教程一共九套,分为初级、中级、高级三大部分,教程是对VBA的系统讲解&#…

安装Git(小白也会装)

一、官网下载:Git 1.依次点击(红框) 不要安装在C盘了,要炸了!!! 后面都 使用默认就好了,不用改,直接Next! 直到这里,选第一个 这两种选项的区别如…

前端正则表达式完全指南:从入门到实战

文章目录 第一章:正则表达式基础概念1.1 什么是正则表达式1.2 正则表达式工作原理1.3 基础示例演示 第二章:正则表达式核心语法2.1 元字符大全表2.2 量词系统详解2.3 字符集合与排除 第三章:前端常用正则模式3.1 表单验证类3.1.1 邮箱验证3.1…

Chromium项目相关

Chromium项目相关 Chromium 是一个开源浏览器项目,旨在为所有用户构建一种更安全、更快速、更稳定的方式来体验 Web。 自 Google 在 2008 年宣布 Chromium 项目以来,他们一直很高兴能够在开源 Web 浏览器的良好基础上进行构建,并为富 Web 平…

自动驾驶测试场景相关概念

自动驾驶测试场景 一、概念二、分类2.1、按照场景的抽象程度可分为:功能场景、逻辑场景、具体场景。2.2.、​按功能划分2.3、 ​按环境复杂度2.3、按场景类型 三、要素四、挑战与趋势4.1、长尾场景覆盖​4.2、伦理决策测试​4.3、车路协同测试​4.4、联邦学习驱动​…

给小白的oracle优化工具,了解一下

有时懒得分析或语句太长,可以尝试用oracle的dbms_sqldiag包进行sql优化, --How To Use DBMS_SQLDIAG To Diagnose Query Performance Issues (Doc ID 1386802.1) --诊断SQL 性能 SET ECHO ON SET LINESIZE 132 SET PAGESIZE 999 SET LONG 999999 SET SER…

基因型—环境两向表数据分析——品种生态区划分

参考资料:农作物品种试验数据管理与分析 用于品种生态区划分的GGE双标图有两种功能图:试点向量功能图和“谁赢在哪里”功能图。双标图的具体模型基于SD定标和h加权和试点中心化的数据。本例中籽粒产量的GGE双标图仅解释了G和GE总变异的53.6%,…

电路中如何计算电容容值大小

一个例题: 【电路中电容容值是怎么算出来的?】https://www.bilibili.com/video/BV1RQ4y1c7i1?vd_source3cc3c07b09206097d0d8b0aefdf07958

GPT大语言模型与搜索引擎:技术本质与应用场景的深度解析

引言 在人工智能和自然语言处理(NLP)领域,GPT(Generative Pre-trained Transformer)大语言模型和搜索引擎是两个备受关注的技术。尽管它们都涉及到信息检索和生成,但它们在技术原理、应用场景和用户体验上…

FreeRTOS-中断管理

实验目的 创建一个队列及一个任务,按下按键 KEY1 触发中断,在中断服务函数里向队列里发送数据,任务则阻塞接 收队列数据。 实验代码 实验结果 这样就实现了,使用中断往队列的发送信息,用任务阻塞接收信息

计算机毕业设计SpringBoot+Vue.js音乐网站(源码+文档+PPT+讲解)

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…