当前位置: 首页 > news >正文

Window 下Mamba 环境安装踩坑问题汇总及解决方法 (无需绕过selective_scan_cuda)

导航

  • Mamba 及 Vim 安装问题参看本人之前博客:Mamba 环境安装踩坑问题汇总及解决方法
  • Linux 下Vmamba 安装教程参看本人之前博客:Vmamba 安装教程(无需更改base环境中的cuda版本)
  • Windows 下 VMamba的安装参看本人之前博客:Windows 下 VMamba 安装教程(无需更改base环境中的cuda版本且可加速)

目录

  • 导航
  • 背景
  • Windows 下环境准备
  • Windows 下 `mamba-ssm` 的编译
  • Windows 下 `mamba-ssm` 的编译出现的问题及解决(20240714)
    • 1. 基本报错信息
    • 2. "M_LOG2E" is undefined
    • 3. error C2975: “kIsVariableC_”
    • 4. error C2975: “kNRows_”

背景

Mamba 官方代码链接为:https://github.com/state-spaces/mamba,在原来博客 “Mamba 环境安装踩坑问题汇总及解决方法” 基础上,不绕过selective_scan_cuda,进行 Mamba 环境安装,这样可以获得和 Linux 一样的速度1

安装问题 / 资源自取 / 论文合作想法请+vx931744281

Windows 下环境准备

  1. 前期环境准备,同原来博客 “Mamba 环境安装踩坑问题汇总及解决方法” ,具体为:
conda create -n mamba python=3.10
conda activate mamba
conda install cudatoolkit==11.8
pip install torch==2.1.1 torchvision==0.16.1 torchaudio==2.1.1 --index-url https://download.pytorch.org/whl/cu118
pip install setuptools==68.2.2
conda install nvidia/label/cuda-11.8.0::cuda-nvcc_win-64
conda install packaging
pip install triton-2.0.0-cp310-cp310-win_amd64.whl

其中 triton-2.0.0-cp310-cp310-win_amd64.whl 获取参看原来博客 “Mamba 环境安装踩坑问题汇总及解决方法” 。

  1. causal-conv1d 的安装,同原来博客 “Mamba 环境安装踩坑问题汇总及解决方法” ,具体细化为:
git clone https://github.com/Dao-AILab/causal-conv1d.git
cd causal-conv1d
git checkout v1.1.1  # 安装最新版的话,此步可省略
set CAUSAL_CONV1D_FORCE_BUILD=TRUE
pip install .

官方没有编译好的适用于Windows版本的 whl,因此需要用上述步骤来手动编译。笔者编译好了 Windows 下的 causal_conv1d-1.1.1-cp310-cp310-win_amd64.whl,亦可直接下载安装。

pip install causal_conv1d-1.1.1-cp310-cp310-win_amd64.whl
  1. mamba-ssm 环境准备,下载工程文件,即
git clone https://github.com/state-spaces/mamba.git
cd mamba
git checkout v1.1.1   # 安装最新版的话,此步可省略

注意,上述过程中,新版 mamba-ssm 需要搭配新版 causal-conv1d,要不然函数不兼容。完成前期工作后进入下一步正式编译。

Windows 下 mamba-ssm 的编译

  • 在mamba源码 setup.py 修改第41行配置:
FORCE_BUILD = os.getenv("MAMBA_FORCE_BUILD", "TRUE") == "TRUE"
  • csrc/selective_scan/selective_scan_fwd_kernel.cuhvoid selective_scan_fwd_launch 函数改为
void selective_scan_fwd_launch(SSMParamsBase &params, cudaStream_t stream) {// Only kNRows == 1 is tested for now, which ofc doesn't differ from previously when we had each block// processing 1 row.static constexpr int kNRows = 1;BOOL_SWITCH(params.seqlen % (kNThreads * kNItems) == 0, kIsEvenLen, [&] {BOOL_SWITCH(params.is_variable_B, kIsVariableB, [&] {BOOL_SWITCH(params.is_variable_C, kIsVariableC, [&] {BOOL_SWITCH(params.z_ptr != nullptr , kHasZ, [&] {using Ktraits = Selective_Scan_fwd_kernel_traits<kNThreads, kNItems, kNRows, kIsEvenLen, kIsVariableB, kIsVariableC, kHasZ, input_t, weight_t>;// constexpr int kSmemSize = Ktraits::kSmemSize;static constexpr int kSmemSize = Ktraits::kSmemSize + kNRows * MAX_DSTATE * sizeof(typename Ktraits::scan_t);// printf("smem_size = %d\n", kSmemSize);dim3 grid(params.batch, params.dim / kNRows);auto kernel = &selective_scan_fwd_kernel<Ktraits>;if (kSmemSize >= 48 * 1024) {C10_CUDA_CHECK(cudaFuncSetAttribute(kernel, cudaFuncAttributeMaxDynamicSharedMemorySize, kSmemSize));}kernel<<<grid, Ktraits::kNThreads, kSmemSize, stream>>>(params);C10_CUDA_KERNEL_LAUNCH_CHECK();});});});});
}
  • csrc/selective_scan/static_switch.hBOOL_SWITCH 函数改为
#define BOOL_SWITCH(COND, CONST_NAME, ...)                                           \[&] {                                                                            \if (COND) {                                                                  \static constexpr bool CONST_NAME = true;                                        \return __VA_ARGS__();                                                    \} else {                                                                     \static constexpr bool CONST_NAME = false;                                       \return __VA_ARGS__();                                                    \}                                                                            \}()

(这两步是将 constexpr 改为 static constexpr

  • csrc/selective_scan/cus/selective_scan_bwd_kernel.cuhcsrc/selective_scan/cus/selective_scan_fwd_kernel.cuh 文件开头加入:
#ifndef M_LOG2E
#define M_LOG2E 1.4426950408889634074
#endif
  • 完成上述修改后,执行 pip install . 一般即可顺利编译,成功安装。
  • 本人编译好的Windows 下的whl 也有:mamba-ssm-1.1.3 ,可直接下载安装或联系本人vx自取。利用 whl 安装命令为:
pip install mamba-ssm-1.1.3-cp310-cp310-win-amd64.whl

由于此时没有绕过selective_scan_cuda,在虚拟环境中产生了 selective-scan-cuda.cp310-win-amd64.pyd 文件,所以运行速度较快。

Windows 下 mamba-ssm 的编译出现的问题及解决(20240714)

1. 基本报错信息

如果不进行修改利用 `pip install .`` 直接编译源码时会出现如下报错:

subprocess.CalledProcessError: Command '['ninja', '-v']' returned non-zero exit status 1.The above exception was the direct cause of the following exception:Traceback (most recent call last):File "/data/xxx/anaconda3/envs/xxx/lib/python3.10/site-packages/torch/utils/cpp_extension.py", line 2116, in _run_ninja_buildraise RuntimeError(message) from eRuntimeError: Error compiling objects for extension[end of output]

这是最基本的报错信息,只要编译出错就会输出这些,如果在其上面没有看到具体报错,可在 setup.py 里面,将

cmdclass={"bdist_wheel": CachedWheelsCommand, "build_ext": BuildExtension}

改为

cmdclass={"bdist_wheel": CachedWheelsCommand, "build_ext": BuildExtension.with_options(use_ninja=False)}

pytorch默认使用ninjia作为backend2,禁用掉可以看到具体的报错,但是编译速度实测会变慢,所以解决bug后可以改回来。

注:有的博客将 anaconda环境下的 lib/python3.6/site-packages/torch/utils/cpp_extension.py文件里的[‘ninja’,‘-v’]改成[‘ninja’,‘–v’] 或者[‘ninja’,‘–version’] 是错误的做法,治标不治本。

2. “M_LOG2E” is undefined

在Windows下会出现如下大量报错:

 xxx\mamba-1.1.3\csrc\selective_scan\selective_scan_bwd_kernel.cuh(221): error: identifier "M_LOG2E" is undefined

出现这种情况的原因,可参考 issue:

Note for the owners: The reason for needing #define is stated here: https://stackoverflow.com/a/56974843:
“On windows it is using the Microsoft compiler for that. So the Microsoft compiler is correct to disallow VLA, and there is no way to avoid this AFAIK. Your code works on linux, because on linux nvcc uses the g++ host compiler, and it allows (in a non-standard-compliant way) the use of a VLA in C++ host code.”

因此,只需在csrc/selective_scan/cus/selective_scan_bwd_kernel.cuhcsrc/selective_scan/cus/selective_scan_fwd_kernel.cuh 文件加入以下代码即可

#ifndef M_LOG2E
#define M_LOG2E 1.4426950408889634074
#endif

3. error C2975: “kIsVariableC_”

在Windows下会出现如下大量报错:

error C2975: “kIsVariableC_”:“Selective_Scan_bwd_kernel_traits”的模板参数无效,应为编译时常量表达式

csrc/selective_scan/static_switch.h 函数里的 constexpr 改为 static constexpr,参考 issue。具体步骤参看前一节。

4. error C2975: “kNRows_”

在Windows下会出现如下大量报错:

xxx\mamba-1.1.3\csrc\selective_scan\selective_scan_fwd_kernel.cuh(314): error C2975: “kNRows_”:“Selective_Scan_fwd_kernel_traits”的模板参数无效,应为编译时常量表达式

csrc/selective_scan/selective_scan_fwd_kernel.cuh 函数 void selective_scan_fwd_launch 里的 constexpr 改为 static constexpr,参考 issue。具体步骤参看前一节。


  1. Windows Support #12 ↩︎

  2. 出现错误“subprocess.CalledProcessError: Command ‘[‘ninja‘, ‘-v‘]‘ returned non-zero exit status 1”解决方法 ↩︎

http://www.lryc.cn/news/400301.html

相关文章:

  • 前端项目本地的node_modules直接上传到服务器上无法直接使用(node-sasa模块报错)
  • Hadoop3:动态扩容之新增一台机器的初始化工作
  • 【正点原子i.MX93开发板试用连载体验】录音小程序采集语料
  • 【EasyExcel】动态替换表头内容并应用样式
  • RocketMQ实现分布式事务
  • 【Rust练习】2.数值类型
  • 通过 PPPOE 将 linux 服务器作为本地局域网 IPv4 外网网关
  • gin源码分析
  • 数学建模入门
  • 【学习笔记】无人机(UAV)在3GPP系统中的增强支持(十二)-无人机群在物流中的应用
  • 同三维T80006EH2-4K30编码器视频使用操作说明书:高清HDMI编码器,高清SDI编码器,4K超清HDMI编码器,双路4K超高清编码器
  • DHCP原理及配置
  • 异步日志:性能优化的金钥匙
  • matlab仿真 模拟调制(上)
  • 【数据结构】--- 堆的应用
  • 0基础学会在亚马逊云科技AWS上利用SageMaker、PEFT和LoRA高效微调AI大语言模型(含具体教程和代码)
  • 护网HW面试——redis利用方式即复现
  • C++ //练习 15.8 给出静态类型和动态类型的定义。
  • 阿里云ECS服务器安装jdk并运行jar包,访问成功详解
  • Windows系统上使用npm来安装和配置Yarn,在VSCode中使用
  • Unity ColorSpace 之 【颜色空间】相关说明,以及【Linear】颜色校正 【Gamma】的简单整理
  • JavaScript的学习(二)
  • 【接口自动化_06课_Pytest+Excel+Allure完整框架集成】
  • Profibus协议转Profinet协议网关模块连接智能电表通讯案例
  • 【学习笔记】无人机(UAV)在3GPP系统中的增强支持(九)-无人机服务区分离
  • acrobat 中 PDF 复制时不能精确选中所选内容所在行的一种解决方法
  • 安卓学习中遇到的问题【bug】
  • 【日常记录】【CSS】display:inline 的样式截断
  • 数据库系统安全
  • Qt MV架构-代理模型