当前位置: 首页 > news >正文

此芯p1开发板使用OpenHarmony时llama.cpp不同优化速度对比(GPU vs CPU)

硬件环境

  • Cix P1 SoC 瑞莎星睿 O6 开发板 + rx580显卡

    • 产品介绍: https://docs.radxa.com/orion/o6/getting-started/introduction
  • OpenHarmony 5.0.0

image.png

使用vulkan后端的llama.cpp (GPU)

image.png

# ./llama-bench -m /data/qwen1_5-0_5b-chat-q2_k.gguf -ngl 100
ggml_vulkan: Found 1 Vulkan devices:
ggml_vulkan: 0 = AMD Radeon RX 580 2048SP (RADV POLARIS10) (radv) | uma: 0 | fp16: 0 | bf16: 0 | warp size: 64 | shared memory                                : 65536 | int dot: 0 | matrix cores: none
| model                          |       size |     params | backend    | ngl |            test |                  t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: |
| qwen2 0.5B Q2_K - Medium       | 278.92 MiB |   619.57 M | Vulkan     | 100 |           pp512 |       2425.55 ± 2.33 |
| qwen2 0.5B Q2_K - Medium       | 278.92 MiB |   619.57 M | Vulkan     | 100 |           tg128 |        136.98 ± 7.70 |build: unknown (0)

此时可以观察到 rx580的状态,接近满载。理论上插一张rx7900 xtx 24G也可以的,可惜笔者囊中羞涩。

snapshot_19700101_082211.jpeg

纯cpu跑

# ./llama-bench -m /data/qwen1_5-0_5b-chat-q2_k.gguf
| model                          |       size |     params | backend    | threads |            test |                  t/s |
| ------------------------------ | ---------: | ---------: | ---------- | ------: | --------------: | -------------------: |
| qwen2 0.5B Q2_K - Medium       | 278.92 MiB |   619.57 M | CPU        |      12 |           pp512 |        138.70 ± 0.36 |
| qwen2 0.5B Q2_K - Medium       | 278.92 MiB |   619.57 M | CPU        |      12 |           tg128 |          8.41 ± 0.22 |build: unknown (0)

结论

GPU 优势显著​:Vulkan 后端在端侧推理中实现 ​16–17 倍加速,尤其适合高吞吐任务。

http://www.lryc.cn/news/613123.html

相关文章:

  • JavaWeb03——基础标签及样式(表单)(黑马视频笔记)
  • 【运维进阶】NFS 服务器
  • 智慧园区系统:打造未来城市生活新体验
  • 第一性原理科学计算服务器如何选择配置-内存选择篇
  • 软考中级【网络工程师】第6版教材 第2章 数据通信基础(下)
  • Windows下Rust编码实现MP4点播服务器
  • 【算法训练营Day22】回溯算法part4
  • Pytest项目_day07(pytest)
  • npm 与 npx 区别详解。以及mcp中npx加载原理。
  • 《深入理解Java字符串:从基础到高级特性》
  • 贪心+矩阵算法
  • 与页面共舞 —— Content Scripts 的魔法
  • 面向对象之类、继承和多态
  • leafletMap封装使用
  • 动手学深度学习13.11. 全卷积网络 -笔记练习(PyTorch)
  • Linux 中断系统全览解析:从硬件到软件的全路线理解
  • 外部排序总结(考研向)
  • MongoDB数据存储界的瑞士军刀:cpolar内网穿透实验室第513号挑战
  • 数据结构:双向链表(Doubly Linked List)
  • 生成对抗网络(GAN)实战 - 创建逼真人脸图像
  • 电路相量法
  • (易视宝)易视TV is-E4-G-全志A20芯片-安卓4-烧写卡刷工具及教程
  • C++的“模板”
  • day069-Jenkins基础使用与参数化构建
  • golang的面向对象编程,struct的使用
  • 急危重症专科智能体”构建新一代急诊、手术与重症中心的AI医疗方向探析
  • 【深度学习机器学习】构建情绪对话模型:从数据到部署的完整实践
  • 小鸡模拟器安卓版:经典街机游戏的移动体验
  • Elcomsoft Wireless Security Auditor 安装教程-安全检测工具使用指南
  • 数据结构----栈和队列认识