当前位置: 首页 > article >正文

回头看,FPGA+RK3576方案的功耗性能优势

作者:Hello,Panda

各位朋友,大家好,熊猫君这次开个倒车,在这个广泛使用Xilinx(Altera)高端SoC的时代,分享一个“FPGA+ARM”实现的低功耗高性能传统方案。

图1 瑞芯微RK3576电路

当前,包含FPGA和硬核处理器的SoC主要集中于以下几个系列:

1、Xilinx(现在的AMD):(1)高端的VerSal系列,集成超大容量的FPGA和双核Cortex-A72/Cortex-A78E处理器;(2)中端的ZYNQ MPSoC,集成中等容量的FPGA和双核或四核的Cortex-A53处理器;(3)通用的ZYNQ-7000系列SoC,集成一般容量的FPGA和单/双核的Cortex-A9处理器。

2、Altera(现在的Intel可编程逻辑业务):(1)高端的Agilex和Stratix 10系列SoC均采用四核Cortex-A53处理和超大规模的FPGA;(2)通用的Arria 10和Cyclone V系列SoC均采用单/双/四核的 Cortex-A9处理器。

3、其他,包括高云、安陆等国内厂家,均有提供集成FPGA和硬核处理器的SoC。硬核处理器大多为ARM Cortex-M3/M4(搭配中小规模FPGA使用)或RISC-V处理(搭配较大规模的FPGA使用),主要还是适合在一些不太复杂的控制领域使用。

通过以上总结可以看到,Xilinx和Altera的大规模和超大规模SoC主要用于验证AISC设计或原理样机验证,不大可能用到量产工业或消费产品中去。中低端的FPGA处理器性能又普遍偏弱,在一些图形图像中的处理能力偏弱,功耗也不低,形成优势产品的难度较大。

在一些手持设备、电池供电的系统或对发热敏感的高性能图像应用系统,常常需要在功耗、面积、性能上找到一个最优解。对一个图像系统而言,常常需要FPGA来做图像采集、控制和其它接口扩展,处理一些适合Pipeline的图像或图像算法等等,同时又需要ARM或DSP做一些较为复杂的应用算法、图像效果或数据库等等。这种情况下,封装尺寸小的“低功耗FPGA+低功耗ARM SoC”分立方案反而成了最优解。

这里一个最典型的应用就是红外热成像领域,具有100%指征:

(1)非制冷的手持设备和电池供电设备:对热量敏感,机器内部发热会严重影响成像效果,带来灵敏度降低(NETD),热辐射“锅盖”现象等;对续航敏感,无论是测温设备、穿戴设备还是仪器仪表,都要求待机时间越长越好,因此对低功耗要求高;对计算要求较高,这些机器里面通常需要运行一些图像处理类的算法外,还需要运行图像融合,检测、识别、跟踪等算法或是较为复杂的图形界面、样本数据库等等,所以这些设备的计算性能要求绝对不低。

当然,也有部分非制冷探测器应用集成封装FPGA,如国内某头部红外制造商堆栈封装了易灵思Ti60 FPGA;

(2)制冷型的红外设备:此类设备主要用于仪器和特殊领域使用,虽然对续航时间没有要求,但其对发热和性能的要求同样高,一句话就是:性能尽量高,发热要小。

一、低功耗FPGA

现在咱们聊一聊低功耗的FPGA。咱们暂且分为国产和进口两大类。

(1)进口低功耗FPGA:说到功耗低、不发热,性能又比较好的,必须是Lattice,尤其是其Crosslink-NX系列(包括该系列的国内马甲芯片),可以说是排在低功耗性能器件的首位;其次是MicroChip的,功耗是真的低,但是容量和性能也是真的低;再次就是Altera的Max10系列,内部集成了Flash和ADC等,功耗性能比上也还是很不错的(缺点是没有mipi核,40k以上逻辑没有小封装)。综上:进口低功耗FPGA首选Lattice Crosslink-NX 40K逻辑器件,压榨其资源(尽可能能用的资源都用上,不含PCIe器件)平均实测功耗≤500mW,直观的用手去摸芯片表面,基本感受不到发热(测试FPGA型号为LIFCL-40-7MG121I)。

图2  :Lattice LIFCL-40电路图

(2)国产低功耗FPGA:严格意义上,国产器件没有专门的低功耗设计,其功耗由流片工艺决定。高云小蜜蜂、智多晶、京微齐力、紫光同创、安陆等等功耗较低的器件普遍容量小,接口和性能上也差事儿,能做的事情不多。目前来讲,可用的主要是高云的GW5A和易灵思的TI60(集成HyperRAM和QSPI Flash)两个系列的器件上。从实测效果上看,选用GW5AT-60 MG132封装和Ti60 100pin封装两颗器件(逻辑量均为60k),运行相同功能的逻辑,用手接触芯片表面明显发热,整体功耗也在1200mW以上。在对国产化要求有硬性指标的应用场合,这个大概是最佳选项。

图3 高云GW5AT-LV60UG225电路图

图4 易灵思Ti60电路图

下面是Lattice、高云、易灵思三家器件的对照表:

二、低功耗SoC

SoC的功耗直接与其制程和性能相关。咱们这里不讨论国外的如英伟达、高通、TI之类的,主要还是选国产,按照其能打程度,主要还是海思、瑞芯微和全志三大家,但是这三家又各有特点:

(1)海思SoC主要针对图像处理,ISP性能强,但是自其恢复供货后,受制造工艺限制,功耗高了不少;

(2)瑞芯微主要针对通用处理,其ISP性能较弱,但是通用计算能力强,接口也很丰富;

(3)全志比较低调,就是纯ARM SoC,没有较强的图像图形处理能力,且没有工业和车载等级器件。

从以上三家的情况来看,“FPGA+ARM”方案,ARM SoC主要承担的是应用处理算法和图形、数据处理能力,因此选用瑞芯微器件会更加合适。

下表是RK3576、RK3588和海思Hi3559AV100参数对照表。

实际上,低功耗视觉应用场景图像的分辨率不会太大,对应的图像链路的处理负载和内存消耗不会太大,对应的输入输出接口和Codec的功耗也会较小。其功耗消耗主要是运行前述的复杂算法。

三、案例

以下是一个常规的双光融合设备的框图,如前面内容所述,FPGA和RK3576各自分工承担计算负载,如下图5所示。像这样的一个典型应用方案,处理板上的功耗约4瓦(常温25°C时,不含屏)。

图5  FPGA+RK3576双光融合方案框图

今天就聊这么多,分享结束,感谢大家阅读,希望能起到抛砖引玉的作用。

http://www.lryc.cn/news/2395166.html

相关文章:

  • csharp ef入门
  • 长短期记忆网络:从理论到创新应用的深度剖析
  • LiveNVR 直播流拉转:Onvif/RTSP/RTMP/FLV/HLS 支持海康宇视天地 SDK 接入-视频广场页面集成与视频播放说明
  • MySQL索引与性能优化入门:让查询提速的秘密武器【MySQL系列】
  • 进程间通信IV System V 系列(linux)
  • 设计模式——建造者设计模式(创建型)
  • AWS WebRTC:获取ICE服务地址(part 3):STUN服务和TURN服务的作用
  • 使用Yolov8 训练交通标志数据集:TT100K数据集划分
  • NLP学习路线图(十三):正则表达式
  • [VMM]现代 CPU 中用于加速多级页表查找的Page‐Table Entry原理
  • javaweb-maven以及http协议
  • 华为OD机试真题—— 最少数量线段覆盖/多线段数据压缩(2025A卷:100分)Java/python/JavaScript/C++/C语言/GO六种最佳实现
  • C语言创意编程:用趣味实例玩转基础语法(2)
  • 关于近期中国移动民用家庭网络,新增的UDP网络限制。
  • OpenCV CUDA模块图像处理------颜色空间处理之GPU 上对两张带有 Alpha 通道的图像进行合成操作函数alphaComp()
  • OpenWebUI(1)源码学习构建
  • npm error Cannot find module ‘negotiator‘ 的处理
  • 爬虫入门指南-某专利网站的专利数据查询并存储
  • SQL(Database Modifications)
  • 【android bluetooth 案例分析 04】【Carplay 详解 2】【Carplay 连接之手机主动连车机】
  • maven离线将jar包导入到本地仓库中
  • 【仿muduo库实现并发服务器】实现时间轮定时器
  • Conda更换镜像源教程:加速Python包下载
  • 蓝桥杯 盗墓分赃2
  • 深度解读 Qwen3 大语言模型的关键技术
  • 使用 mysqldump 获取 MySQL 表的完整创建 DDL
  • day15 leetcode-hot100-28(链表7)
  • 阿里云云效对接SDK获取流水线制品
  • Qt 相关 编译流程及交叉编译 部署所遇到的问题总结-持续更新
  • 前端面经 DNSxieyi1