当前位置: 首页 > news >正文

第二十篇-推荐-纯CPU(E5-2680)推理-llama.cpp-qwen1_5-72b-chat-q4_k_m.gguf

环境

系统:CentOS-7
CPU: Intel® Xeon® CPU E5-2680 v4 @ 2.40GHz 14C28T
内存: 48G DDR3

依赖安装

make --version
GNU Make 4.3gcc --version
gcc (GCC) 11.2.1 20220127 (Red Hat 11.2.1-9)g++ --version
g++ (GCC) 11.2.1 20220127 (Red Hat 11.2.1-9)

编译

git clone https://github.com/ggerganov/llama.cpp
cd llama.cppmake等待一会查看
ls
-rwxr-xr-x.  1 root root 1.6M Feb 23 07:54 main
-rwxr-xr-x.  1 root root 2.6M Feb 23 07:55 server
.....

下载模型

https://hf-mirror.com/Qwen/Qwen1.5-72B-Chat-GGUF
qwen1_5-72b-chat-q4_k_m.gguf.a
qwen1_5-72b-chat-q4_k_m.gguf.b

合并文件

cat qwen1_5-72b-chat-q5_k_m.gguf.* > qwen1_5-72b-chat-q5_k_m.gguf

启动

./server -m /models/Qwen1.5-72B-Chat-GGUF/qwen1_5-72b-chat-q4_k_m.gguf --host 192.168.31.222 -c 1024 -t 26
我的IP是192.168.31.222
或
./main -m /models/Qwen1.5-72B-Chat-GGUF/qwen1_5-72b-chat-q4_k_m.gguf  -n 512 --color -i -cml -f prompts/chat-with-qwen.txt

访问

方式1http://192.168.31.222:8080/
方式2curl --request POST \
--url http://192.168.31.222:8080/completion \
--header "Content-Type: application/json" \
--data '{"prompt": "Building a website can be done in 10 simple steps:","n_predict": 128}'

总结

CPU利用2600%左右,42G内存,如果更强的CPU估计还是能到4倍速度吧速度 0.6 tokens/s 这个速度还是很慢的,测试一下还是可以的,毕竟是70B的模型呀,继续研究中
print_timings: prompt eval time =    4839.81 ms /    13 tokens (  372.29 ms per token,     2.69 tokens per second)
print_timings:        eval time =  214075.61 ms /   128 runs   ( 1672.47 ms per token,     0.60 tokens per second)
print_timings:       total time =  218915.43 ms
http://www.lryc.cn/news/307618.html

相关文章:

  • CSS常见选择器
  • [LWC] Components Communication
  • Unity中URP实现水体(水下的扭曲)
  • anaconda指定目录创建环境无效/环境无法创建到指定位置
  • 《Docker极简教程》--Docker在生产环境的应用--Docker在生产环境的部署
  • 算法D31 | 贪心算法1 | 455.分发饼干 376. 摆动序列 53. 最大子序和
  • 在IDEA中创建vue hello-world项目
  • 如何获取pnpm存储目录
  • QT两个类之间使用信号槽
  • 【Ubuntu】使用WSL安装Ubuntu
  • 【Node.js】自动生成 API 文档
  • 小红书3C家电行业种草营销策略打法,纯干货
  • 防火墙的内容安全
  • Redis 管道详解
  • 【Redis】理论进阶篇------浅谈Redis的缓存穿透和雪崩原理
  • Rocky Linux安装部署Elasticsearch(ELK日志服务器)
  • Linux浅学笔记04
  • 【Day59】代码随想录之动态规划_647回文子串_516最长回文子序列
  • ECLIP
  • STM32 +合宙1.54“ 电子墨水屏(e-paper)驱动显示示例
  • 使用Postman和JMeter进行signature签名
  • uni-app nvue vue3 setup中实现加载webview,解决nvue中获取不到webview实例的问题
  • IPD(集成产品开发)—核心思想
  • uniapp android 原生插件开发-测试流程
  • MyCAT从入门到实战(配置文件介绍)
  • 【LeetCode-300】最长递增子序列(动归)
  • Mysterious-GIF-攻防世界-MISC
  • 【数据结构和算法初阶(C语言)】链表-单链表(手撕详讲单链表增删查改)
  • 【Go语言】Go语言中的切片
  • Qt程序设计-钟表自定义控件实例