当前位置：首页 > news >正文

解决 GPTQ 模型导入后推理生成 Tokens 速度很慢的问题（从源码重新安装 Auto-GPTQ）

news 2025/8/21 6:05:33

这里解决的是使用 Auto-GPTQ 或者 Transformers 导入 GPTQ 模型后推理速度很慢的问题。

值得注意的是，这个问题很有可能是因为安装不正确，所以 GPTQ 无法正确使用 GPU 进行推理，也就是说无法进行加速，即便 print(model.device) 显示为 “cuda”。类似的问题见 Is This Inference Speed Slow? #130/ CUDA extension not installed #694。

这个问题是普遍存在的，当你直接使用 pip install auto-gptq 进行安装时，可能就会出现。

你可以通过以下命令检查已安装的版本：

pip list | grep auto-gptq

如果发现之前安装的版本不带 cuda 标识，卸载它，从源码重新进行安装（推理速度将提升为原来的 15 倍以上）。

如果存在 cuda 标识，那么应该去检查代码的参数是否正确。

pip uninstall auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ.git && cd AutoGPTQ

# 以下两种方式任选一种进行安装，经测试均有效
pip install -vvv --no-build-isolation -e .
# >> Successfully installed auto-gptq-0.8.0.dev0+cu121python setup.py install
# >> Finished processing dependencies for auto-gptq==0.8.0.dev0+cu121

查看全文

http://www.lryc.cn/news/457180.html