当前位置: 首页 > news >正文

llama.cpp运行qwen0.5B

编译llama.cp

参考

下载模型

05b模型下载

转化模型

创建虚拟环境

conda create --prefix=D:\miniconda3\envs\llamacpp python=3.10
conda activate D:\miniconda3\envs\llamacpp

安装所需要的包

在这里插入图片描述

cd G:\Cpp\llama.cpp-master
pip install -r requirements.txt
python convert.py -h

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
执行转换命令

python convert.py G:\Python\Qwen1.5-0.5B-Chat --outfile G:\Cpp\qwenchat0.5b.gguf --outtype q8_0
python convert-hf-to-gguf.py G:\Python\Qwen1.5-0.5B-Chat  --outfile G:\Cpp\qwenchat0.5b.gguf
# 解释
# python 
# convert.py # convert.py路径
# /content/finetuned-2_merged # 模型路径
# --outfile finetuned-2.gguf # 要分配的gguf模型名称
# --outtype q8_0 #以8 Bit量化

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

将模型量化为5Bit(使用q5_k-m方法)

quantize.exe G:\Cpp\qwenchat0.5b.gguf qwenchat0.5b-q5_k_m.gguf q5_k_m

在这里插入图片描述
在这里插入图片描述
运行

# 注意Qwen模型要使用chatml prompt 模版
main.exe -m qwenchat0.5b-q5_k_m.gguf -n 512 --chatml

在这里插入图片描述

尝鲜通义千问1.8B
参考
hf2gguf

http://www.lryc.cn/news/332685.html

相关文章:

  • 【接口】HTTP(3) |GET和POST两种基本请求方法有什么区别
  • 金陵科技学院软件工程学院软件工程专业
  • Android 关于apk反编译d2j-dex2jar classes.dex失败的几种方法
  • Django--admin 后台管理站点
  • JavaScript(六)---【回调、异步、promise、Async】
  • vue2+elementUi的两个el-date-picker日期组件进行联动
  • GIN实例讲解
  • 开源充电桩设备监控系统技术解决方案
  • 环形链表--极致的简便
  • WPF中TextWrapping
  • Win10 下 git error unable to create file Invalid argument 踩坑实录
  • 简化备案域名查询的最新API接口
  • 基于SpringBoot和Vue的校园周边美食探索以及分享系统
  • TiDB单机版安装和连接访问
  • Spark-Scala语言实战(13)
  • Android compose 使用指纹验证
  • 开源模型应用落地-chatglm3-6b模型小试-入门篇(一)
  • C++实现单例模式
  • 虚幻UE5智慧城市全流程开发教学
  • docker的安装及入门指令
  • 聚能共创下一代智能终端操作系统 软通动力荣膺“OpenHarmony优秀贡献单位”
  • 云服务器ECS租用价格表报价——阿里云
  • 光猫桥接模式详细步骤
  • 构建开源可观测平台
  • SketchUp Pro 2024 for mac 草图大师 专业的3D建模软件
  • 通过 Cookie、Redis共享Session 和 Spring 拦截器技术,实现对用户登录状态的持有和清理(三)
  • 学习 Git 基础知识 - 日常开发任务手册
  • pip和conda 设置安装源
  • 数据分析之Logistic回归分析中的【多元有序逻辑回归】
  • 路由器拨号失败解决方法