当前位置: 首页 > news >正文

在mac m1基于llama.cpp运行deepseek

lama.cpp是一个高效的机器学习推理库,目标是在各种硬件上实现LLM推断,保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化,通过ARM NEON、Accelerate和Metal支持Apple芯片,使得在MAC M1处理器上运行Deepseek大模型成为可能。

1 下载llama.cpp

git clone https://github.com/ggerganov/llama.cpp.git 

如果clone异常,直接下载release版本,链接如下,然后解压缩https://github.com/ggml-org/llama.cpp/archive/refs/tags/b5857.tar.gz

2 安装llama.cpp

创建环境

conda create -n llama.cpp python=3.12 

conda activate llama.cpp

安装依赖

pip install -r requirements.txt

编译

conda install cmake 

mkdir build

cd build

cmake .. -DLLAMA_METAL=ON

cmake --build . --config Release

-DLLAMA_METAL=ON启用Metal支持,利用mac的GPU加速

3 测试llama.cpp 

1) GGUF转化

提前下载hf格式的模型文件../DeepSeek-R1-Distill-Qwen-7B,将模型文件转化为GGUF模型文件。GGUF是一种用于GGML推断的文件格式。转化代码convert_hf_to_gguf.py在llama.cpp主目录。

cd .. # 切换到llama.cpp主目录

python convert_hf_to_gguf.py ../DeepSeek-R1-Distill-Qwen-7B 

转化后GGUF模型文件../DeepSeek-R1-Distill-Qwen-7B/DeepSeek-R1-Distill-Qwen-7B-F16.gguf

2) int4量化

刚编译好的量化程序llama-quantize在build/bin目录。

cd build 

./bin/llama-quantize ../../DeepSeek-R1-Distill-Qwen-7B/DeepSeek-R1-Distill-Qwen-7B-F16.gguf ../../DeepSeek-R1-Distill-Qwen-7B/model-q4_0.gguf Q4_0

量化后的gguf int4文件../../DeepSeek-R1-Distill-Qwen-7B/model-q4_0.gguf

3)测试量化

量化推理命令/llama-cli也在build/bin目录,运行示例如下。

./bin/llama-cli -m ../../DeepSeek-R1-Distill-Qwen-7B/model-q4_0.gguf -p "你好?新加坡首都在哪里" -n 128

reference

---

llama.cpp release

https://github.com/ggml-org/llama.cpp/releases

llama.cpp里面的Q8_0,Q6_K_M,Q4_K_M量化原理是什么?

https://www.zhihu.com/question/633365088

[LLM-Llama]在 MAC M1上体验Llama.cpp和通义千问Qwen 1.5-7B

https://juejin.cn/post/7371365854012293131

http://www.lryc.cn/news/583767.html

相关文章:

  • 毫米波雷达守护银发安全:七彩喜跌倒检测仪重构居家养老防线
  • Uni-app 生命周期与钩子:程序的“生命”旅程
  • 力扣 hot100 Day40
  • Datawhale AI 夏令营:基于带货视频评论的用户洞察挑战赛 Notebook(上篇)
  • 大模型 Agent(智能体)技术简介
  • 配置rsync定时同步
  • Spring AI 系列之七 - MCP Client
  • 广告匹配策略的智能化之路:人工智能大模型的方法和步骤
  • 【JMeter】跨线程组传递参数
  • mac m1芯片 安装pd及win10系统
  • 智能体的记忆系统:短期记忆、长期记忆与知识图谱
  • 水陆联防智能升级:AI入侵检测系统守护零死角安全
  • 使用Docker将Python项目部署到云端的完整指南
  • Qt cannot find C:\WINDOWS\TEMP\cctVBBgu: Invalid argument
  • ROS1学习第二弹
  • @Data是什么?
  • 打破技术债困境:从“保持现状”到成为变革的推动者
  • 【保姆级喂饭教程】GitLab创建用户规范,分支开发规范,提交日志规范
  • 【基于大模型 + FAISS 的本地知识库与智能 PPT 生成系统:从架构到实现】
  • 【TCP/IP】1. 概述
  • 静态路由实验(2)
  • Linux Vim 编辑器详解:从入门到进阶(含图示+插件推荐)
  • 【Pandas】pandas DataFrame from_dict
  • 「Java案例」输出最大的数及其出现的次数
  • 智能体决策机制深度剖析:ReAct、Plan-and-Execute与自适应策略
  • 灰度发布策略制定方案时可以参考的几个维度
  • 【HarmonyOS Next之旅】DevEco Studio使用指南(四十二) -> 动态修改编译配置
  • C语言 | 函数核心机制深度解构:从底层架构到工程化实践
  • SQL的初步学习(一)(以MySQL为例)
  • 【前端】【Echarts】【Liquidfill 水球图】深入理解 ECharts Liquidfill 水球图:从入门到进阶