AlphaEarth模型架构梳理及借鉴哪些深度学习领域方面的思想
模型架构
AlphaEarth Foundations(AEF)的架构围绕“时空精度编码”和“通用嵌入场生成”设计,核心包括编码器、嵌入场约束及多源适配机制,具体如下:
1. 核心编码器:Space Time Precision(STP)
STP是模型的核心组件,用于处理多源、多时态的地球观测数据,同时保持空间精度和时空关系建模能力。其结构特点包括:
- 多分辨率并行路径:每个STP块包含三个并行算子,分别处理不同空间尺度的信息:
- 空间算子(
1/16 L
):采用类ViT的空间自注意力机制,捕捉长距离空间关联; - 时间算子(
1/8 L
):使用时间轴自注意力,结合正弦时间编码(将时间戳转换为连续信号),建模时间动态; - 精度算子(
1/2 L
):通过3x3卷积保持高空间分辨率(最终输出为1/2 L
像素)。
- 空间算子(
- 特征传递机制:每个STP块通过“拉普拉斯金字塔重缩放”将输出传递给下一个块,确保不同尺度特征的融合;最终通过学习的空间重采样,统一输出精度算子的分辨率。
2. 嵌入场生成与约束
AEF的输出是“嵌入场”(embedding field),即覆盖地球表面的连续特征图层,核心设计包括:
- 时间条件摘要:支持“支持期”(输入数据的时间范围)和“有效期”(需生成摘要的目标时间范围),通过时间轴注意力池化生成特定时间区间的特征摘要,可对缺失时间区间进行插值(如无数据时段)或外推(如预测未来)。
- 球面约束:嵌入向量被约束在63维单位球面(
S⁶³
)上,通过“批量均匀性目标”(最小化批量内向量的点积绝对值)确保分布均匀,提升特征的泛化能力。 - 高效存储:每个嵌入仅64字节,比同类方法紧凑16倍,且支持8位量化(存储减少4倍),几乎不损失性能。
3. 多源适配与解码
AEF可处理多种异质数据源(光学、雷达、LiDAR、气候数据等),通过以下机制适配:
- 输入标准化:所有 raster 数据重采样至10米分辨率,按波段全局统计量归一化;时间戳转换为正弦编码,作为模型的时间上下文。
- 隐式解码器:针对不同数据源(如Sentinel-2、GEDI)设计专用解码器,输入嵌入向量、传感器元数据(如轨道参数)和时间编码,重建原始观测值(如光谱反射率、植被高度)。
训练过程
AEF的训练基于“多任务协同优化”,结合重建、对比学习和文本对齐,具体流程如下:
1. 训练数据
- 规模与来源:基于30亿+观测值,涵盖9类网格数据源(如Sentinel-1/2、Landsat 8/9、GEDI LiDAR、ERA5-Land气候数据等)和1类文本源(维基百科地理条目、GBIF物种记录),覆盖约1.1%的地球陆地面积。
- 采样策略:按生态区(RESOLVE Ecoregions)分层采样,补充近岸生态系统(珊瑚礁、潮间带)样本,确保覆盖多样化地表类型;每个采样点提取2个非重叠的年度时间序列,增强时间泛化能力。
2. 模型组合与训练目标
训练三个协同网络:教师视频嵌入模型、学生视频嵌入模型(与教师共享参数)、文本对齐模型,通过以下损失函数优化:
- 重建损失:最小化解码器对输入数据的重建误差(如光谱反射率、雷达信号),分类任务用交叉熵,回归任务用L1损失。
- 批量均匀性损失:最小化批量内嵌入向量的点积绝对值,确保向量在
S⁶³
上均匀分布,避免特征空间坍缩。 - 对比一致性损失:让学生模型(输入数据随机缺失)与教师模型(完整输入)的嵌入向量尽可能接近(最小化1 - 点积),增强对数据稀疏性的鲁棒性。
- 文本对比损失:通过CLIP损失对齐视频嵌入与地理文本描述(如维基百科条目),增强语义关联。
3. 训练细节
- 硬件与参数:在512个TPU v4设备上训练56小时,迭代10万步,批大小256;采用约4.8亿参数的轻量版本(平衡性能与推理效率)。
- 优化策略:使用Adam优化器,学习率从0线性增长至1e-4(前1e3步),再衰减至0(1e3至1e5步);输入序列随机采样103帧(含Sentinel-2、Sentinel-1、Landsat数据)。
通过上述架构和训练设计,AEF实现了对多源、多时态地球观测数据的统一建模,生成的嵌入场可直接用于各类地理空间任务(如土地覆盖分类、变化检测),且无需重新训练。
#############################################################
AlphaEarth Foundations的架构在多个方面借鉴了深度学习领域的经典思想和前沿方法,具体如下:
-
Transformer与自注意力机制
模型的核心编码器“Space Time Precision (STP)”中,空间算子采用“ViT-like spatial self-attention”(类Vision Transformer的空间自注意力),借鉴了Vision Transformer(Dosovitskiy et al., 2020)中通过自注意力捕捉全局空间关联的思想;时间算子则使用“time-axial self-attention”(时间轴自注意力),结合正弦时间编码处理时序信息,这与视频Transformer中对时间维度的建模思路一致。 -
多分辨率特征融合
STP块通过“spatial pyramid ‘exchanges’”(空间金字塔交换)机制传递不同尺度的特征,并结合“learned Laplacian pyramid rescaling”(学习的拉普拉斯金字塔重缩放)实现跨分辨率信息交互,这一设计借鉴了高分辨率表示学习中多尺度特征融合的思想(如Wang et al., 2020的Deep High-Resolution Network)。 -
对比学习与自监督训练
模型采用“教师-学生”双模型结构:教师模型接收完整输入,学生模型接收随机缺失部分输入,通过最小化两者嵌入的差异(“1 minus the dot product”)增强模型对数据稀疏性的鲁棒性,这借鉴了自监督学习中对比一致性训练的思想(如SimCLR的对比损失)。 -
跨模态对齐(CLIP思想)
文本对齐模型通过“CLIP loss”(Radford et al., 2021)将视频嵌入与地理文本描述(如维基百科条目)对齐,借鉴了CLIP中“图像-文本”跨模态对比学习的思路,增强嵌入的语义关联性。 -
变分瓶颈与流形约束
模型通过“variational bottleneck”(变分瓶颈)将特征压缩为63维单位球面((S^{63}))上的分布,并通过“batch uniformity objective”(批量均匀性目标)确保嵌入在球面均匀分布,这借鉴了变分自编码器(VAE)的瓶颈设计和流形学习中“特征空间结构化约束”的思想。 -
多任务与多源数据融合
模型对光学、雷达、LiDAR等多源数据采用统一编码器+专用解码器架构,通过多任务损失(重建损失、文本损失等)联合优化,借鉴了多任务学习中“共享特征提取+任务特定解码”的范式。
这些思想的融合,使AlphaEarth能够在保持高精度和多源适配性的同时,实现对稀疏地理数据的高效建模。
关于CLIP思想的入门与学习请关注博主并访问另一个文章。https://blog.csdn.net/weixin_46035550/article/details/149977241?spm=1001.2014.3001.5501