论文研读(2025 KDD):细粒度人体轨迹建模
论文:Marionette: Fine-Grained Conditional Generative Modeling of
Spatiotemporal Human Trajectory Data Beyond Imitation
介绍
Marionette,一种具有细粒度条件的人类轨迹数据的可操作生成模型。具体来说,Marionette整合了全局和部分移动性相关的上下文,并提取了序列级和事件级条件。之后,它分别基于类似扩散的时间点过程(TPP)和离散扩散模型设计了细粒度和级联调节机制来建模时间和空间动力学,为具有全局和部分移动性相关背景的人类轨迹数据提供了细粒度可控的通用建模。
贡献
我们揭示了现有人类轨迹生成模型的局限性,即忽略了丰富的上下文信息对人类移动模式的重大影响,这限制了数据驱动的移动模拟的灵活性和可操作性。 (这些上下文信息包括用户资料、年鉴、天气条件、社交活动、节日活动、政策或其他城市异常情况等)
我们提出了Marionette,这是一种可操作的生成模型,用于在细粒度条件下生成人类轨迹数据,为具有全局和部分移动性相关上下文的人类轨迹数据提供细粒度可控的生成建模。
我们根据大量最先进的基线,在两个真实世界的人类轨迹数据集上对木偶进行了彻底的评估。结果表明,Marionette在统计和分布相似性指标上明显优于最佳基线13.96-54.13%,在基于任务的数据效用评估中优于最佳基线9.36-40.63%。消融研究验证了我们的关键设计选择。案例研究还证明了木偶在以前看不见的场景中生成数据的可操作性。
背景
现有技术集中在人类流动的预测建模
现有的轨迹生成建模工作可以分为两类:
无信息方法侧重于从数据中直接学习人类流动模式。
早期的方法大多设计了具有少量参数的机械模型来描述人类移动性的关键特征[15,42],如时间周期性和空间连续性。例如,
探索和优先返回(EPR)模型[41]通过随机行走过程选择新的地点进行探索,并根据访问频率重新访问地点以获得优先返回,从而整合了探索和返回的流动模式。
TimeGeo[25]通过引入时间元素来扩展EPR模型,以更好地描述时间迁移模式。
随着深度学习的进步,最近的方法减少了先验假设,使模型能够捕捉现实世界移动轨迹中更复杂的时空模式
SeqGAN[56]使用生成对抗网络(GAN)进行序列生成。
MoveSim[12]将物理距离、时间周期性和历史转换矩阵引入GAN框架。
TrajGen[3]使用基于CNN的GAN将移动轨迹映射到图像并生成合成轨迹图像,然后由Seq2Seq模型处理以生成合成轨迹。
SAVE[23]集成了VAE和LSTM来生成移动轨迹。
COLA[47]通过分离私有和共享模块并校准预测概率来开发一个模型无关的传输框架,以考虑人类轨迹模拟中城市的特定特征。最近,神经时间点过程[6,40,57,65]被广泛用于模拟稀疏和不规则观察到的人类轨迹的时间动力学的随机性。在轨迹生成的背景下,
VOLUNTEER[33]将两层VAE模型与时间点过程相结合,以捕捉人类的移动性特征。
ActSTD[58]通过在连续位置域中使用神经常微分方程来改进单个轨迹的动态建模。
DSTPP[57]进一步使用扩散模型对复杂的时空联合分布进行建模。
Geo-CETRA[32]分解人类轨迹的时空约束,分别对时间和空间分布进行建模,生成满足波束搜索策略约束的高质量轨迹。
MIRAGE[8]集成了无强度神经TPP和神经EPR模型,以模拟轨迹生成中的人类决策过程。
评价:这些方法的进步,往往没有考虑到各种与移动性相关的环境对人类移动性的影响,使其无法灵活和不可控地满足用户指定的生成场景的要求。
信息引导方法将道路网络、起点-终点对和其他相关因素等额外的上下文纳入流动生成模型,以进一步调节生成的人类流动模式。
TS TrajGen[26]将A*算法[17]与GAN框架相结合,在给定的城市道路网络上生成连续采样的轨迹。
DiffTraj[63]应用由外部因素(如出发时间和区域)引导的扩散概率模型,在连续空间域中生成轨迹。
ControlTraj[64]预训练道路网络编码器,并在道路网络拓扑的结构约束下采用条件扩散模型
这些工作都集中在连续采样的车辆轨迹数据(即定期采样的GPS轨迹)上,并随后在空间域中提供某些可控的生成(例如,在给定的道路网络上生成GPS点),这与我们目前的工作不同,我们的工作侧重于语义丰富位置的稀疏和不规则观察到的人类轨迹及其具有细粒度上下文的可控条件生成建模。
公式化
与人员流动相关的背景。与流动性相关的背景是指可能影响人类流动模式的环境因素,如年鉴[5]、天气条件[4]或社会事件[20]等。
条件轨迹生成。给定真实世界的人类轨迹数据集和各种与人类移动性相关的条件,目标是根据用户指定的移动性相关条件生成合成轨迹数据集,同时保持原始真实世界数据集的保真度和实用性
Marionette
木偶包括三个部分:1)上下文对齐和提取,2)条件时间建模,3)条件空间建模
1)上下文对齐
对于给定的轨迹,上下文对齐和提取模块使用上下文对齐方法整合与移动性相关的全局和部分上下文,然后提取序列级(针对整个序列)和事件级(针对每个在场事件)条件
根据影响持续时间定义了两种类型的与移动性相关的上下文。首先,全局上下文影响整个轨迹,作为轨迹整个序列的粗粒度条件。例如,考虑到生成每日轨迹,工作日或季节信息在整个轨迹上是持久的。其次,部分上下文仅影响轨迹的一部分,作为轨迹子序列的细粒度条件。例如,暴雨通常持续数小时,因此仅在其期间对用户轨迹的移动模式产生影响。此外,这种对流动模式的影响在暴雨的绝对时间内进一步变化[5];例如,如果暴雨发生在周末早晨,通常会观察到明显的影响(因为人们可能会避免不必要的旅行),而如果发生在夜间,其影响通常可以忽略不计。
上下文对齐
1.分段 将轨迹的整个持续时间划分为多个𝐿 段,其中每个段的长度对应于所有部分上下文的最细粒度。(例如,暴雨信号以小时为单位进行报告,而台风信号则以半小时为单位报告;对于24小时的每日轨迹,这些天气条件的部分背景则落入𝐿 = 48 部分。)
2.表示局部上下文(c_p)
向量长度等于分段数L, 每个元素对应一个小时间段,存储该局部上下文在该时段的值
3.扩展全局上下文(c_g )
原本全局上下文只有一个值(如“一月”)。为了与局部上下文对齐(长度匹配),需要将这个单一的全局值复制扩展成一个长度同样为 L
的向量 c_g
。向量中的每个元素 都存储相同的全局上下文值。
4.拼接所有上下文(C)
局部上下文与全局上下文堆叠(列数为L)
每一行为一个上下文特征,每一列为同一个时间段内所有上下文特征的值
2)条件时间建模
条件时间模型在类似扩散的TPP模型之上设计了一个条件时间点过程(TPP),以捕捉条件对事件触发的位移和TPP强度函数连续变化的影响
3)条件空间建模
条件空间模型设计了一个与离散扩散模型集成的级联条件机制,以捕捉位置对活动类别的依赖性,并进一步对时间的依赖性。