当前位置：首页 > news >正文

AlphaEarth模型架构梳理及借鉴哪些深度学习领域方面的思想

news 2025/8/7 7:38:29

模型架构

AlphaEarth Foundations（AEF）的架构围绕“时空精度编码”和“通用嵌入场生成”设计，核心包括编码器、嵌入场约束及多源适配机制，具体如下：

1. 核心编码器：Space Time Precision（STP）

STP是模型的核心组件，用于处理多源、多时态的地球观测数据，同时保持空间精度和时空关系建模能力。其结构特点包括：

多分辨率并行路径：每个STP块包含三个并行算子，分别处理不同空间尺度的信息：
- 空间算子（1/16 L）：采用类ViT的空间自注意力机制，捕捉长距离空间关联；
- 时间算子（1/8 L）：使用时间轴自注意力，结合正弦时间编码（将时间戳转换为连续信号），建模时间动态；
- 精度算子（1/2 L）：通过3x3卷积保持高空间分辨率（最终输出为1/2 L像素）。
特征传递机制：每个STP块通过“拉普拉斯金字塔重缩放”将输出传递给下一个块，确保不同尺度特征的融合；最终通过学习的空间重采样，统一输出精度算子的分辨率。

2. 嵌入场生成与约束

AEF的输出是“嵌入场”（embedding field），即覆盖地球表面的连续特征图层，核心设计包括：

时间条件摘要：支持“支持期”（输入数据的时间范围）和“有效期”（需生成摘要的目标时间范围），通过时间轴注意力池化生成特定时间区间的特征摘要，可对缺失时间区间进行插值（如无数据时段）或外推（如预测未来）。
球面约束：嵌入向量被约束在63维单位球面（S⁶³）上，通过“批量均匀性目标”（最小化批量内向量的点积绝对值）确保分布均匀，提升特征的泛化能力。
高效存储：每个嵌入仅64字节，比同类方法紧凑16倍，且支持8位量化（存储减少4倍），几乎不损失性能。

3. 多源适配与解码

AEF可处理多种异质数据源（光学、雷达、LiDAR、气候数据等），通过以下机制适配：

输入标准化：所有 raster 数据重采样至10米分辨率，按波段全局统计量归一化；时间戳转换为正弦编码，作为模型的时间上下文。
隐式解码器：针对不同数据源（如Sentinel-2、GEDI）设计专用解码器，输入嵌入向量、传感器元数据（如轨道参数）和时间编码，重建原始观测值（如光谱反射率、植被高度）。

训练过程

AEF的训练基于“多任务协同优化”，结合重建、对比学习和文本对齐，具体流程如下：

1. 训练数据

规模与来源：基于30亿+观测值，涵盖9类网格数据源（如Sentinel-1/2、Landsat 8/9、GEDI LiDAR、ERA5-Land气候数据等）和1类文本源（维基百科地理条目、GBIF物种记录），覆盖约1.1%的地球陆地面积。
采样策略：按生态区（RESOLVE Ecoregions）分层采样，补充近岸生态系统（珊瑚礁、潮间带）样本，确保覆盖多样化地表类型；每个采样点提取2个非重叠的年度时间序列，增强时间泛化能力。

2. 模型组合与训练目标

训练三个协同网络：教师视频嵌入模型、学生视频嵌入模型（与教师共享参数）、文本对齐模型，通过以下损失函数优化：

重建损失：最小化解码器对输入数据的重建误差（如光谱反射率、雷达信号），分类任务用交叉熵，回归任务用L1损失。
批量均匀性损失：最小化批量内嵌入向量的点积绝对值，确保向量在S⁶³上均匀分布，避免特征空间坍缩。
对比一致性损失：让学生模型（输入数据随机缺失）与教师模型（完整输入）的嵌入向量尽可能接近（最小化1 - 点积），增强对数据稀疏性的鲁棒性。
文本对比损失：通过CLIP损失对齐视频嵌入与地理文本描述（如维基百科条目），增强语义关联。

3. 训练细节

硬件与参数：在512个TPU v4设备上训练56小时，迭代10万步，批大小256；采用约4.8亿参数的轻量版本（平衡性能与推理效率）。
优化策略：使用Adam优化器，学习率从0线性增长至1e-4（前1e3步），再衰减至0（1e3至1e5步）；输入序列随机采样103帧（含Sentinel-2、Sentinel-1、Landsat数据）。

通过上述架构和训练设计，AEF实现了对多源、多时态地球观测数据的统一建模，生成的嵌入场可直接用于各类地理空间任务（如土地覆盖分类、变化检测），且无需重新训练。

			#############################################################

AlphaEarth Foundations的架构在多个方面借鉴了深度学习领域的经典思想和前沿方法，具体如下：

Transformer与自注意力机制
模型的核心编码器“Space Time Precision (STP)”中，空间算子采用“ViT-like spatial self-attention”（类Vision Transformer的空间自注意力），借鉴了Vision Transformer（Dosovitskiy et al., 2020）中通过自注意力捕捉全局空间关联的思想；时间算子则使用“time-axial self-attention”（时间轴自注意力），结合正弦时间编码处理时序信息，这与视频Transformer中对时间维度的建模思路一致。
多分辨率特征融合
STP块通过“spatial pyramid ‘exchanges’”（空间金字塔交换）机制传递不同尺度的特征，并结合“learned Laplacian pyramid rescaling”（学习的拉普拉斯金字塔重缩放）实现跨分辨率信息交互，这一设计借鉴了高分辨率表示学习中多尺度特征融合的思想（如Wang et al., 2020的Deep High-Resolution Network）。
对比学习与自监督训练
模型采用“教师-学生”双模型结构：教师模型接收完整输入，学生模型接收随机缺失部分输入，通过最小化两者嵌入的差异（“1 minus the dot product”）增强模型对数据稀疏性的鲁棒性，这借鉴了自监督学习中对比一致性训练的思想（如SimCLR的对比损失）。
跨模态对齐（CLIP思想）
文本对齐模型通过“CLIP loss”（Radford et al., 2021）将视频嵌入与地理文本描述（如维基百科条目）对齐，借鉴了CLIP中“图像-文本”跨模态对比学习的思路，增强嵌入的语义关联性。
变分瓶颈与流形约束
模型通过“variational bottleneck”（变分瓶颈）将特征压缩为63维单位球面（(S^{63})）上的分布，并通过“batch uniformity objective”（批量均匀性目标）确保嵌入在球面均匀分布，这借鉴了变分自编码器（VAE）的瓶颈设计和流形学习中“特征空间结构化约束”的思想。
多任务与多源数据融合
模型对光学、雷达、LiDAR等多源数据采用统一编码器+专用解码器架构，通过多任务损失（重建损失、文本损失等）联合优化，借鉴了多任务学习中“共享特征提取+任务特定解码”的范式。