当前位置: 首页 > news >正文

ffmpeg 硬件解码零拷贝unity 播放

ffmpeg硬件解码问题

ffmpeg 在硬件解码,一般来说,我们解码使用cuda方式,当然,最好的方式是不要确定一定是cuda,客户的显卡不一定有cuda,windows 下,和linux 下要做一些适配工作,最麻烦的不是这个,二是ffmpeg解码后,颜色空间的转换,如果使用cuda,那么可以使用cuda去在gpu中直接转码,如果没有cuda,那么我们希望的是不要转颜色空间。

ffmpeg 硬件解码相信下面这一段代码是大家比较熟悉的

if (frame->format == hw_pix_fmt) {/* retrieve data from GPU to CPU */sw_frame->format = sourcepf; // AV_PIX_FMT_NV12;//if ((ret = av_hwframe_transfer_data(sw_frame, frame, 0)) < 0) {if ((ret = av_hwframe_map(sw_frame, frame, 0)) < 0) {fprintf(stderr, "Error transferring the data to system memory\n");av_frame_free(&frame);av_frame_free(&sw_frame);return -1;}tmp_frame = sw_frame;
}
else
{tmp_frame = frame;
}

如下我们在解码的时候,gpu 一个tesla p40 都占用了42%,实际上是unity渲染占用
在这里插入图片描述
打开tesla p40 的decode,实际上并不多,间歇会有一个峰值,后来稳定在7% 左右,p40的显存不小,但是解码其实不如3080这种gpu。
在这里插入图片描述

回过头来说ffmpeg 函数,av_hwframe_map 函数直接把gpu显存中的数据映射到内存,并且颜色转换从cuda到nv12,实际上cuda中的颜色就是nv12,只是把数据下载到了内存,这个过程是避免不了的,如果我们希望三维软件或者opencv 直接识别这个内存数据,显然是最好是rgb24,或者bgr24 这种颜色空间,那么问题就是
我们熟悉的swscale 函数颜色转换还是比较消耗cpu,那么我们应该怎么做才是最合适的方法

2 最合适的方法

应该是 ffmpeg transfer到内存后,不转换,直接使用三维软件使用shader来转变颜色空间,当然这肯定又是一次内存到显存的上载,但这个也是避免不了的。

2.1 拷贝
使用用户空间自己的内存直接给ffmpeg 的av_hwframe_map 函数 ,让ffmpeg下载时到用户空间指定的内存地址。

2.2 显示
使用shader 显示nv12

Shader"draw/s1"
{Properties {_MainTex ("Y", 2D) = "white" {}_MainTexUV ("UV", 2D) = "white" {}}SubShader{Lighting OffPass{CGPROGRAMsampler2D _MainTex;sampler2D _MainTexUV;#pragma vertex vert#pragma fragment fragstruct appdata{float4 vertex : POSITION;float2 uv : TEXCOORD0;};struct v2f{float2 uv : TEXCOORD0;float4 vertex : SV_POSITION;};//float4 vert(float4 v : POSITION) : SV_Position//{//    return UnityObjectToClipPos(v);//}v2f vert(appdata v){v2f o;o.vertex = UnityObjectToClipPos(v.vertex);o.uv = v.uv;return o;}//    fixed4 frag(v2f i):SV_Target//    {1 - i.uv.y 左右镜像//        fixed2 uv = fixed2(i.uv.x, 1 - i.uv.y);//        fixed4 ycol = tex2D(_MainTex, uv);//        fixed4 uvcol = tex2D(_MainTexUV, uv);//        float y = ycol.r;//        float v = uvcol.r - 0.5;//        float u = uvcol.g - 0.5;//        float r = y + 1.370705 * v;//        float g = y - 0.337633 * u - 0.698001 * v;//        float b = y + 1.732446 * u;//        return fixed4(r,g,b, 1.0);//    }fixed4 frag(v2f i) : SV_Target{fixed4 col;float y = tex2D(_MainTex, i.uv).a;fixed4 uvs = tex2D(_MainTexUV, i.uv);float u = uvs.r - 0.5;float v = uvs.g - 0.5;float r = y + 1.403 * v;float g = y - 0.344 * u - 0.714 * v;float b = y + 1.770 * u;col.rgba = float4(r, g, b, 1.0f);return col;}ENDCG}}FallBack "VertexLit"
}

这已经是目前最快的方法了

其他问题

其他就是怎么直接把显存给pytorch 了,这个也是比较重要的,下次再说吧

http://www.lryc.cn/news/268395.html

相关文章:

  • 高德地图_公共交通路径规划API,获取两地点之间的驾车里程和时间
  • PyTorch深度学习实战(28)——对抗攻击(Adversarial Attack)
  • MariaDB单机多实例的配置方法
  • 加强->servlet->tomcat
  • Python初学者必须吃透的69个内置函数!
  • Day73力扣打卡
  • Android原生实现分段选择
  • 在 Unity 中获取 Object 对象的编辑器对象
  • idea自动注释
  • 阿里云 ACK 云上大规模 Kubernetes 集群高可靠性保障实战
  • 如何在无公网IP环境使用Windows远程桌面Ubuntu
  • Python——yolov8识别车牌2.0
  • Cookie的详解使用(创建,获取,销毁)
  • shell脚本自动化部署Zabbix4.2(修改脚本替换版本)
  • java SSM课程平台系统myeclipse开发mysql数据库springMVC模式java编程计算机网页设计
  • k8s二进制最终部署(网络 负载均衡和master高可用)
  • 【51单片机系列】DS1302时钟模块
  • 深入理解C语言中冒泡排序(优化)
  • 低代码选型注意事项
  • Caffeine--缓存组件
  • Centos7:Jenkins+gitlab+node项目启动(1)
  • starrocks集群fe/be节点进程守护脚本
  • 奇富科技跻身国际AI学术顶级会议ICASSP 2024,AI智能感知能力迈入新纪元
  • 如何在Android Termux中使用SFTP实现远程传输文件
  • 高频知识汇总 | 【操作系统】面试题汇总(万字长博通俗易懂)
  • 【前端框架】NPM概述及使用简介
  • C# LINQ
  • 云原生机器学习平台cube-studio开源项目及代码简要介绍
  • 大小端存储是什么鬼?
  • WEB:探索开源PDF.js技术应用