当前位置：首页 > news >正文

香橙派 RK3588 部署千问大模型 Qwen2-VL-2B 推理视频

news 2025/8/10 16:45:51

演示视频

香橙派RK3588部署千问大模型Qwen2-VL-2B推理视频

一、场景假设

视频输入为一条网络流，利用大模型对视频中的图像帧进行推理。由于大模型推理耗时长，无法对每帧都进行推理，因此采用跳帧推理的方式：当推理完一帧后，期间会跳过若干帧，然后立即推理最新的一帧。

二、处理流程

1. 拉流

使用 ffmpeg 拉取 rtsp 流，进行解封装得到 h264。
为保证传输稳定，配置为 rtsp over tcp。

2. 视频解码

通过 mpp 解码 h264，得到 nv12 图像。

3. 图像转换

利用 rga 将 nv12 图像进行放缩和转 rgb 操作，此过程采用 letterbox 方式，主要目的是保持宽高等比放缩。

4. 图像编码

使用 rknn 将 rgb 图像编码成大模型能够理解图像所用的图像向量。

5. 推理

借助 rknn 将提示词和图像向量输入大模型进行推理，推理结果直接打印出来。

6. 渲染

将用于推理的图像（即图像编码前的图像），通过 qt 适配 qwidget 和 opengles 的方式进行渲染。

三、使用模型

Qwen2-VL-2B_llm_w8a8_rk3588.rkllm
Qwen2-VL-2B_vision_rk3588.rknn

四、主要耗时

图像编码模型加载：5s
大模型加载：7s
图像编码：3s
大模型推理：5s

注意：模型加载仅在程序开始时进行一次即可。

五、资源占用

CPU：145%（满载 800%）
内存：5GB
NPU：50%~99%
温度：69℃

查看全文

http://www.lryc.cn/news/615585.html

Kubernetes CronJob bug解决

前端工程化：从构建工具到性能监控的全流程实践

Day38--动态规划--322. 零钱兑换，279. 完全平方数，139. 单词拆分，56. 携带矿石资源（卡码网），背包问题总结

原生Vim操作大全

大模型“涌现”背后的暗线——规模、数据、目标函数的三重协奏

Android 开发问题：The specified child already has a parent.

202506 电子学会青少年等级考试机器人五级器人理论真题

NX二次开发——面有关的函数

C++的结构体指针

密集遮挡场景识别率↑31%！陌讯轻量化部署方案在智慧零售的实战解析

Linux文件操作详解：一切皆文件

app功能测试工具

智慧水务漏检率↓75%：陌讯水下视觉监测方案实战解析

动态规划（相同地方不同状态）

Web前端之Vue框架

【牛客刷题】小红的区间删除

MM-2025 | 浙大vivo需求驱动的具身导航！CogDDN：具有基于决策优化和双过程思维的认知驱动导航方法

客服Agent革命：智能客服系统的技术实现与效果评估

PyQt5技术栈简述

如何搭建ELK

【Spring Boot 快速入门】八、登录认证（二）统一拦截

环路补偿知识