当前位置: 首页 > news >正文

香橙派 RK3588 部署千问大模型 Qwen2-VL-2B 推理视频

演示视频

香橙派RK3588部署千问大模型Qwen2-VL-2B推理视频

一、场景假设

视频输入为一条网络流,利用大模型对视频中的图像帧进行推理。由于大模型推理耗时长,无法对每帧都进行推理,因此采用跳帧推理的方式:当推理完一帧后,期间会跳过若干帧,然后立即推理最新的一帧。

二、处理流程

1. 拉流

  • 使用 ffmpeg 拉取 rtsp 流,进行解封装得到 h264。

  • 为保证传输稳定,配置为 rtsp over tcp。

2. 视频解码

通过 mpp 解码 h264,得到 nv12 图像。

3. 图像转换

利用 rga 将 nv12 图像进行放缩和转 rgb 操作,此过程采用 letterbox 方式,主要目的是保持宽高等比放缩。

4. 图像编码

使用 rknn 将 rgb 图像编码成大模型能够理解图像所用的图像向量。

5. 推理

借助 rknn 将提示词和图像向量输入大模型进行推理,推理结果直接打印出来。

6. 渲染

将用于推理的图像(即图像编码前的图像),通过 qt 适配 qwidget 和 opengles 的方式进行渲染。

三、使用模型

  • Qwen2-VL-2B_llm_w8a8_rk3588.rkllm

  • Qwen2-VL-2B_vision_rk3588.rknn

四、主要耗时

  • 图像编码模型加载:5s

  • 大模型加载:7s

  • 图像编码:3s

  • 大模型推理:5s

注意:模型加载仅在程序开始时进行一次即可。

五、资源占用

  • CPU:145%(满载 800%)

  • 内存:5GB

  • NPU:50%~99%

  • 温度:69℃
    在这里插入图片描述

http://www.lryc.cn/news/615585.html

相关文章:

  • Kubernetes CronJob bug解决
  • 前端工程化:从构建工具到性能监控的全流程实践
  • 应用层Http协议(1)
  • Spring框架基础
  • 黑马SpringAI项目-聊天机器人
  • 力扣热题100------70.爬楼梯
  • Day38--动态规划--322. 零钱兑换,279. 完全平方数,139. 单词拆分,56. 携带矿石资源(卡码网),背包问题总结
  • 原生Vim操作大全
  • 大模型“涌现”背后的暗线——规模、数据、目标函数的三重协奏
  • 算法_python_学习记录_02
  • linux 操作ppt
  • Uipath Studio中邮件自动化
  • HTML全景效果实现
  • Android 开发问题:The specified child already has a parent.
  • 202506 电子学会青少年等级考试机器人五级器人理论真题
  • NX二次开发——面有关的函数
  • C++的结构体指针
  • 密集遮挡场景识别率↑31%!陌讯轻量化部署方案在智慧零售的实战解析
  • Linux文件操作详解:一切皆文件
  • app功能测试工具
  • 智慧水务漏检率↓75%:陌讯水下视觉监测方案实战解析
  • 动态规划(相同地方不同状态)
  • Web前端之Vue框架
  • 【牛客刷题】小红的区间删除
  • MM-2025 | 浙大vivo需求驱动的具身导航!CogDDN:具有基于决策优化和双过程思维的认知驱动导航方法
  • 客服Agent革命:智能客服系统的技术实现与效果评估
  • PyQt5技术栈简述
  • 如何搭建ELK
  • 【Spring Boot 快速入门】八、登录认证(二)统一拦截
  • 环路补偿知识