当前位置: 首页 > news >正文

PointMixer论文阅读笔记

MLP-mixer是最近很流行的一种网络结构,比起Transformer和CNN的节构笨重,MLP-mixer不仅节构简单,而且在图像识别方面表现优异。但是MLP-mixer在点云识别方面表现欠佳,PointMixer就是在保留了MLP-mixer优点的同时,还可以很好的处理点云问题。PointMixer可以很好的处理intra-set, inter-set, hierarchical-set的点云。PointMixer这偏论文还很好的证明了chanel-mixing MLP是比token-mixing MLP效果更好,对称encoder和decoder结构能够更好的处理点云问题。

为了方便论文阐述,做以下规定:
P是点云的总和
X是点云特性的总和
Y是output特性的总和
pi是i点云的位置
xi是i点云相关的特性
yi是i点云output的特性
Mi是pi点周围邻居点的集合,常表示为Mi = kNN(P, pi)

PointNet++: 使用kNN和最远点sampling算法,使用不对称的encoder和decoder。PointNet++网络不对整个点云直接分析,而是locally的处理然后再整合在一起。
yi = maxpooling(MLP(concat(xi, pi - pj)));j是Mi的成员

PointTransformer: 也是使用了kNN的方法
yi = sum(softmax(MLP(W1(xi) - W2(xj) + δ(pi - pj)))(W3(xj) + δ(pi - pj)))
W为linear transformer metric,δ为positional encoding vector。

MLP-Mixer: MLP-mixer分为token-mix MLP和channel-mix MLP, MLP-Mixer使用K个tokens有C维features, tokens是将图片分割成小块。 第一步是token-mixing MLPs, 第二步时channel-mixing MLP, token mixing是混合空间轴和维度轴到空间轴,channel-mixing是将空间信息转为维度和空间信息。
MLP-Mixer将CNN的两个任务切割开来,不同位置的mix叫token-mixing,同一位置不同channel的mix叫做channel-mixing。
X’ = X + (W2ρ(W1(Layernorm(X))T))T
Y = X’ + W4ρ(W3Layernorm(X’))
W是MLP,ρ是GELU
token-mix MLPs具有转置同变性,所以点云的输入顺序特别重要。需要在token-mix前再加一层转置不变的网络。
并且MLP-mixer只能处理inter-set的点云,还有很大的提升空间。
https://zhuanlan.zhihu.com/p/372692759

PointMixer:
sj = g2(concat(g1(xj); δ(pi - pj))); j属于Mi, g是channel-mix MLP, δ是positional encoding vector
yi = sum(softmax(sj) * g(xj)); 这里的乘法的element-wise
PointMixer的主要创新点是使用了positional embedding, 使用了softmax,不使用token-mix MLP

为什么不使用token-mix? token-mix MLP具有转置同变性的缺点,而且token-mix只能使用固定数量的输入,但是对于点云来说,neighbor不是固定的,要用聚类算法。

intra-set mixing 使用最传统的kNN

inter-set mixing 使用变种的query-kNN

hierarchical-set mixing 使用变种的hierarchical-kNN

对称性也表现在kNN的集合里面,encoder和decoder的M集是完全颠倒的。

http://www.lryc.cn/news/300884.html

相关文章:

  • [word] word分割线在哪里设置 #其他#经验分享
  • C++ 音视频原理
  • C# 只允许开启一个exe程序
  • 【Java程序员面试专栏 分布式中间件】Redis 核心面试指引
  • 2024年【高处安装、维护、拆除】模拟考试题库及高处安装、维护、拆除实操考试视频
  • 【QT+QGIS跨平台编译】之三十七:【Shapelib+Qt跨平台编译】(一套代码、一套框架,跨平台编译)
  • 【机器学习基础】决策树(Decision Tree)
  • 图神经网络DGL框架,graph classification,多个且不同维度的node feature 训练
  • 蓝桥杯(Web大学组)2022国赛真题:用什么来做计算 A
  • Linux POSIX信号量 线程池
  • Sentinel(理论版)
  • python3 获取某个文件夹所有的pdf文件表格提取表格并一起合并到excel文件
  • 【AIGC】Stable Diffusion的模型入门
  • 【JavaEE】_HTTP请求首行详情
  • Linux第48步_编译正点原子的出厂Linux内核源码
  • 程序员为什么不喜欢关电脑?
  • 【初始RabbitMQ】了解和安装RabbitMQ
  • Linux第56步_根文件系统第3步_将busybox构建的根文件系统烧录到EMMC
  • Linux进程间通信(三)-----System V消息队列
  • Elasticsearch:混合搜索是 GenAI 应用的未来
  • 态、势、感、知的偏序、全序与无序
  • 【从Python基础到深度学习】 8. VIM两种状态
  • java微服务面试篇
  • OpenAI 生成视频模型 Sora 论文翻译
  • 2.13日学习打卡----初学RocketMQ(四)
  • ZigBee学习——BDB
  • 使用Docker快速部署MySQL
  • 力扣热题100_滑动窗口_3_无重复字符的最长子串
  • RM电控工程讲义
  • 论文阅读:《Deep Learning-Based Human Pose Estimation: A Survey》——Part 1:2D HPE