当前位置: 首页 > news >正文

qwen大模型,推理速度慢,单卡/双卡速度慢,flash-attention安装,解决方案

场景

阿里的通义千问qwen大模型,推理速度慢,单卡/双卡速度慢。
详细:
1、今日在使用qwen-14b的float16版本进行推理(BF16/FP16)
1.1 在qwen-14b-int4也会有同样的现象
2、使用3090 24G显卡两张
3、模型加载的device是auto,device=“auto”

解决方案

使用多卡推理,需要开启flash-attention,否则会慢

flash-attention安装

0、如果已经下载了qwen的源码,可以看到源码包里有flash-attention的文件夹。或者也可以去达摩院的git上下载:flash-attention的git地址
在这里插入图片描述
1、cd flash-attention
2、python setup.py install
2.1、在执行这句命令时,可能会报Could not build wheels for flash-attn, which is required to install pyproject.toml-based projects(如果不报,当我没说)
在这里插入图片描述
这里我的解决方法是执行

pip install flash-attn --no-build-isolation

还没结束,继续往下
3、至此就有了flash-attn包了,但是加载模型的时候,还是会报警告,这时的推理速度依旧是很慢的

Try importing flash-attention for faster inference...
Warning: import flash_attn rotary fail, please install FlashAttention rotary to get higher efficiency https://github.com/Dao-AILab/flash-attention/tree/main/csrc/rotary
Warning: import flash_attn rms_norm fail, please install FlashAttention layer_norm to get higher efficiency https://github.com/Dao-AILab/flash-attention/tree/main/csrc/layer_norm

在这里插入图片描述

4、继续安装rotary和layer_norm

# 安装rotary
cd flash-attention
cd csrc/rotary
python setup.py install# 安装layer_norm
cd flash-attention
cd csrc/layer_norm
python setup.py install

5、至此安装完成,加载模型,不会报flash-attention的警告,加载速度也有显著的提升。

6、安装前,我尝试2048字数结果的问答,

  • qwen-14b回答需要100秒,安装后需要70秒

  • qwen-14b-int4回答需要60秒,安装后需要20秒

http://www.lryc.cn/news/207092.html

相关文章:

  • 3.SpringSecurity基于数据库的认证与授权
  • 【软件测试】自动化测试selenium
  • ​​​​​​​如何解决Google play开发者新注册账号,身份验证的地址证明问题?
  • Gin vs Beego: Golang的Web框架之争
  • javascript IP地址正则表达式
  • 【Bash】记录一个长命令换行的BUG
  • 【.net core】yisha框架imageupload组件多图上传修改
  • vscode markdown 使用技巧 -- 如何快速打出一个Tab 或多个空格
  • I/O 模型学习笔记【全面理解BIO/NIO/AIO】
  • 【Python学习笔记】字符编码
  • 华为昇腾NPU卡 大模型LLM ChatGLM2模型推理使用
  • Git 拉取远程更新报错
  • 腾讯云国际站服务器端口开放失败怎么办?
  • 一句话解释什么是出口IP
  • 深入理解强化学习——强化学习的历史:试错学习
  • 分享一个用HTML、CSS和jQuery构建的漂亮的登录注册界面
  • Java学习 习题 1.
  • 第六节——Vue中的事件
  • 设置GridView单选
  • [Python从零到壹] 七十二.图像识别及经典案例篇之OpenGL入门及绘制基本图形和3D图
  • 论文-分布式-并发控制-Lamport逻辑时钟
  • 长三角实现区块链电子医疗票据互联互通,蚂蚁链提供技术支持
  • Redis快速上手篇(三)(事务+Idea的连接和使用)
  • Spring三级缓存解决循环依赖问题
  • Unity 中使用波浪动画创建 UI 图像
  • 支付功能测试用例测试点?
  • HFS 快速搭建 http 服务器
  • 学生专用台灯怎么选?双十一专业学生护眼台灯推荐
  • Go 常用标准库之 fmt 介绍与基本使用
  • antv/x6 导出图片方法exportPNG