当前位置：首页 > news >正文

如何将使用unsloth微调的模型部署到ollama？

news 2025/7/9 9:16:43

一、将模型保存为gguf格式

二、下载llama.cpp

三、生成 llama-quantize 可执行文件

四、使用llama-quantize

五、训练模型

六、将模型部署到ollama

一、将模型保存为gguf格式

在你的训练代码 trainer.train() 之后添加：

model.save_pretrained_gguf("model", tokenizer,)

二、下载llama.cpp

网址：GitHub - ggerganov/llama.cpp: LLM inference in C/C++

git clone GitHub - ggerganov/llama.cpp: LLM inference in C/C++ 或者下载.zip解压。注意llama.cpp需要与训练代码同目录。

三、生成 `llama-quantize` 可执行文件

①打开 PowerShell 或命令提示符

②切换到 llama.cpp 文件夹

cd llama.cpp

③创建构建目录并配置

mkdir build
cd build
cmake .. -DCMAKE_BUILD_TYPE=Release

④执行构建

cmake --build . --config Release

⑤生成的可执行文件应位于

...llama.cpp\build\bin\Release

四、使用llama-quantize

在 llama.cpp 下创建 llama-quantize 文件夹并将 Release 粘贴进 llama-quantize 文件夹。

五、训练模型

进入 train.py 所在路径 python train.py。

六、将模型部署到ollama

①启动ollama

ollama serve

②进入训练后生成的 model 目录

③部署模型到ollama

ollama create your-model-name -f Modelfile

④测试模型

查看全文

http://www.lryc.cn/news/525383.html

【测试】UI自动化测试

SSM开发(二) MyBatis两种SQL配置方式及其对比

【Redis】在ubuntu上安装Redis

easyexcel读取写入excel easyexceldemo

【人工智能数学基础篇】——深入详解矩阵分解：奇异值分解（SVD）与主成分分析（PCA）在数据降维与特征提取中的应用

ThreeJS示例教程200+【目录】

DC-DC稳压电源——实战（基于Ti5450芯片）基础知识篇（1）

pyrender 渲染mesh

防火墙安全策略

selenium clear（）方法清除文本框内容

（回溯分割）leetcode93 复原IP地址

高性能队列 Disruptor 在 IM 系统中的实战

原生HTML集合

ES6 简单练习笔记--变量申明

2025.1.21——六、BUU XSS COURSE 1

Linux - 五种常见I/O模型

【负载均衡式在线OJ】加载题目信息（文件版）

“上门按摩” 小程序开发项目：基于 SOP 的全流程管理

WPF1-从最简单的xaml开始

2025牛客寒假算法营2

编译Android平台使用的FFmpeg库

【C++高并发服务器WebServer】-2：exec函数簇、进程控制

力扣707题（2）——设计链表

K8S中ingress详解

SpringBoot打包为JAR包或WAR 包，这两种打包方式在运行时端口将如何采用？又有什么不同？这篇文章将给你解惑

zabbix6.0安装及常用监控配置

一、将模型保存为gguf格式

二、下载llama.cpp

三、生成 llama-quantize 可执行文件

四、使用llama-quantize

五、训练模型

六、将模型部署到ollama

相关文章：

三、生成 `llama-quantize` 可执行文件