当前位置: 首页 > news >正文

PET(Point-Query Quadtree for Crowd Counting, Localization, and More)

PET(Point-Query Quadtree for Crowd Counting, Localization, and More)

  • 介绍
  • 实验记录
    • 训练阶段
    • 推断阶段

介绍

论文:Point-Query Quadtree for Crowd Counting, Localization, and More

实验记录

训练阶段

TODO

推断阶段

下面是以一张输入图像作为网络输入的实验过程记录:

1.特征提取:对于一张768×1024的图像,记为input。对input做位置编码得到768*1024的位置编码特征,记为input_pos_embed。input经过vgg19输出两个特征分别为f1(96×128)和f2(192×256),对应sparse特征dense特征。f1和f2经过encoder网络之后得到enc_src1enc_src2,尺寸相同。

2.生成分割图:enc_src1和enc_src2经过avg_pool+conv得到一个分割图split_map(12×8),将split_map插值得到分割图split_map_sparse(96×128)split_map_dense(192×256)。(从代码中上可以看出,split_map_sparse是1减去插值结果得到的,所以split_map_sparse和split_map_dense是互斥的,也就是说,在split_map_sparse中的dense区域在split_map_dense中对应的区域是稀疏的。
在这里插入图片描述

3.网格点获取:原始图像为768×1024,使用stride为8和4获取网格点,分别得到92×128和192×256个网格点索引,根据从input_pos_embed中拿到每个点的位置编码,形状为96×128和192×256,记为query_pos_embed1,query_pos_embed2。对应的点特征是从f1和f2中抽取出来,记为query_points_feature1和query_points_feature2。
在这里插入图片描述

4.网格点筛选:这个步骤有点复杂。以split_map_sparse为例,split_map_sparse形状为96×128,将从split_map_sparse分成8×12=96个rectangle,每一个rectangle包含8*16=128个像素,记为div_win(128×96×1),然后筛选大于0.5的像素并在第0维进行累加,对应代码“valid_div = (div_win > 0.5).sum(dim=0)[: , 0] 和v_idx = valid_div > 0 ”,v_idx是一个mask(96,)的(其中17个为false, 79个为true),也就是说在96个rectangle中,但只选择了79个rectangle。query_pos_embed1和query_points_feature1也同样分成96个rectangle,经过筛选后得到query_embed(128×79×256)query_feats(128×79×256)。enc_src1也被分为96个rectangle,经过筛选后得到memory_win(128×79×256)
在这里插入图片描述

5.Decoding:将上面的query_embed, query_feats,memory_win输入到decoder网络,获得10112(128×79)个输出点,预测10112个偏置,因为train阶段输入图像大小都是256*256,inference阶段输入图像大小各不相同,所以需要对10112个偏置进行rescale(根据256的倍数调整)。同样的操作,对于192×256(dense)特征图,生成4608个输出点

6.合并预测结果:根据预测的分类标签值,分别从10112个输出点选出56个点,从4608个输出点中选择118个点,合并成174个点, 也就是最终的所有预测点。gt为172,计算mae=(174-172)=2, 计算mse=(174-172)^2=4。

http://www.lryc.cn/news/255752.html

相关文章:

  • NgRx中dynamic reducer的原理和用法?
  • 麒麟V10服务器安装Apache+PHP
  • DOS 批处理 (一)
  • P1047 [NOIP2005 普及组] 校门外的树题解
  • pip的常用命令
  • 力扣面试题 08.12. 八皇后(java回溯解法)
  • 2023年第十二届数学建模国际赛小美赛A题太阳黑子预测求解分析
  • jsp 分页查询展示,实现按 上一页或下一页实现用ajax刷新内容
  • 基于ssm在线云音乐系统的设计与实现论文
  • 简谈PostgreSQL的wal_level=logic
  • 自动化巡检实现方法 (一)------- 思路概述
  • mysql获取时间异常
  • 维基百科文章爬虫和聚类:高级聚类和可视化
  • springboot智慧导诊系统源码:根据患者症状匹配挂号科室
  • Shell脚本如何使用 for 循环、while 循环、break 跳出循环和 continue 结束本次循环
  • n个人排成一圈,数数123离队
  • 深度学习基础回顾
  • 【Vue】修改组件样式并动态添加样式
  • GO设计模式——12、外观模式(结构型)
  • 一.初始typescript
  • mp3的播放
  • mixamo根动画导入UE5问题:滑铲
  • 容器资源视图隔离 —— 筑梦之路
  • 浅析嵌入式GUI框架-LVGL
  • Unity 关于SetParent方法的使用情况
  • Linux系统上RabbitMQ安装教程
  • ES通过抽样agg聚合性能提升3-5倍
  • c++详解栈
  • Zabbix结合Grafana打造高逼格监控系统
  • Linux设备树