当前位置: 首页 > news >正文

【自然语言处理与大模型】使用llama.cpp将HF格式大模型转换为GGUF格式

        llama.cpp的主要目标是在本地和云端的各种硬件上以最小的设置和最先进的性能实现LLM推理。是一个专为大型语言模型(LLM)设计的高性能推理框架,完全使用C和C++编写,没有外部依赖,这使得它可以很容易地被移植到不同的操作系统和硬件平台上。简化大型语言模型部署流程。

一、下载llama.cpp

1、访问其GitHub官方仓库:llama.cpp

 2、在你的服务器指定路径下克隆仓库

git clone https://github.com/ggerganov/llama.cpp.git

3、安装llama.cpp所需环境

pip install -r requirements.txt

【注】如果你想使用其他方式安装(比如Docker),可以参考官方仓库的下面这个部分。

 二、将大模型从HF格式转换为GGUF格式

1、在llama.cpp项目路径下会有一个convert_hf_to_gguf.py文件

2、执行命令进行格式转换(默认将模型转换为FP16的GGUF)
python3 convert_hf_to_gguf.py <你模型所在路径>

3、模型格式转换成功后会提示GGUF格式的模型保存在了哪里

4、除了可以将大模型转换为FP16的量化精度外,还可以做Q8_0量化(等多种)并导出为GGUF格式

# 将模型量化为8位(使用Q8_0方法)
python convert_hf_to_gguf.py <你的模型所在路径> --outtype q8_0 --outfile <希望保存的路径>

如果你在转换格式的时候指定了量化参数,那么llama.cpp还会帮你做量化,下面是官方给出的Q4_0量化模型对比:

llama.cpp不光支持4位量化,还支持下面多种量化。表中列出了量化前后模型性能和参数规模的bian

【注】 llama.cpp还提供了更多量化格式转换,说明可见下表:

http://www.lryc.cn/news/503260.html

相关文章:

  • MongoDB存储照片和文件存储照片的区别在那里?
  • 协变量的概念
  • 【[LeetCode每日一题】Leetcode 1768.交替合并字符串
  • SRT协议学习
  • 南昌大学《2024年837自动控制原理真题》 (完整版)
  • ASP.NET Core 应用程序的启动与配置:Program.cs 文件的全面解析
  • 2020-12-02 数字过滤
  • 长短期记忆神经网络(LSTM)介绍
  • 数据结构 ——二叉树转广义表
  • chattts生成的音频与字幕修改完善,每段字幕对应不同颜色的视频,准备下一步插入视频。
  • 数据结构开始——时间复杂度和空间复杂度知识点笔记总结
  • 路由策略与策略路由
  • pytorch_fid 安装笔记
  • Qt绘制仪表————附带详细说明和代码示例
  • 百度地图JavaScript API核心功能指引
  • mp4影像和m4a音频无损合成视频方法
  • Ubuntu下将Julia嵌入Jupyter内核
  • openGauss开源数据库实战二十五
  • [C/C++] List相关操作
  • 继电器控制与C++编程:实现安全开关控制的技术分享
  • 题解 - 找子序列(2024.12上海月赛丙组T4)
  • 在centos 7.9上面安装mingw交叉编译工具
  • ubuntu wine mobaxterm找不到串口和解决方案
  • 如何编译安装系统settings设置应用(5.0.0-Release)
  • <项目代码>YOLOv8 车牌识别<目标检测>
  • 协同办公软件新升级:细节优化,让办公更简单
  • 【原创学习笔记】西门子1200 PLC实现变频器控制
  • SQL server学习02-使用T-SQL创建数据库
  • 2024153读书笔记|《春烂漫:新平摄影作品选》——跳绳酷似人生路,起落平常,进退平常,莫惧征途万里长
  • MySQL有哪些高可用方案?