当前位置: 首页 > news >正文

解决 GPTQ 模型导入后推理生成 Tokens 速度很慢的问题(从源码重新安装 Auto-GPTQ)

这里解决的是使用 Auto-GPTQ 或者 Transformers 导入 GPTQ 模型后推理速度很慢的问题。

值得注意的是,这个问题很有可能是因为安装不正确,所以 GPTQ 无法正确使用 GPU 进行推理,也就是说无法进行加速,即便 print(model.device) 显示为 “cuda”。类似的问题见 Is This Inference Speed Slow? #130/ CUDA extension not installed #694。

这个问题是普遍存在的,当你直接使用 pip install auto-gptq 进行安装时,可能就会出现。

你可以通过以下命令检查已安装的版本:

pip list | grep auto-gptq

如果发现之前安装的版本不带 cuda 标识,卸载它,从源码重新进行安装(推理速度将提升为原来的 15 倍以上)。

如果存在 cuda 标识,那么应该去检查代码的参数是否正确。

pip uninstall auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ.git && cd AutoGPTQ
# 以下两种方式任选一种进行安装,经测试均有效
pip install -vvv --no-build-isolation -e .
# >> Successfully installed auto-gptq-0.8.0.dev0+cu121python setup.py install
# >> Finished processing dependencies for auto-gptq==0.8.0.dev0+cu121
http://www.lryc.cn/news/457180.html

相关文章:

  • NDC美国药品编码目录数据库查询方法
  • vue3的v-model使用
  • Go语言实现长连接并发框架 - 消息
  • 湖南(市场咨询)源点调研 如何明确调研焦点与分析单位的特征
  • java 方法引用与构造器引用
  • python3的语法
  • Spring Data JPA中的锁机制
  • mybatis分页拦截器
  • React学习过程(持续更新......)
  • pve lxc容器探索,陆续完善中
  • 5款人声分离免费软件分享,从入门到精通,伴奏提取分分钟拿捏!
  • 镭速助力解决企业大文件传输难题
  • SpringBootWeb AOP
  • 傅里叶分析之掐死教程(完整版)更新于2014.06.06
  • macOS终端配置自动补全功能
  • 华为---MUX VLAN简介及示例配置
  • docker详解介绍+基础操作 (四)容器镜像
  • PostgreSQL数据库定期清理归档(pg_wal)日志
  • RTTI介绍
  • 【C#生态园】C#推送通知库大比拼:选择最适合你项目的库
  • 乐歌E5,E6系列升降桌质量如何?2024推荐必买的四款热销型号
  • Android广播
  • Chapter 2 - 3. Understanding Congestion in Fibre Channel Fabrics
  • 014 属性分组
  • ElasticSearch备考 -- Alias
  • 使用AI编码,这些安全风险你真的了解吗?
  • 计算机网络实验一:组建对等网络
  • R语言绘制折线图
  • 基于组合模型的公交交通客流预测研究
  • docker环境redis启动失败