论文笔记:Trajectory generation: a survey on methods and techniques
2025 GeoInformatica
1 intro
- 轨迹数据通常包含用户的敏感个人信息,直接使用这些数据存在严重的隐私风险
- 为应对这些挑战,轨迹生成(Trajectory Generation)技术通过学习或建模真实轨迹的移动模式,生成大量合成轨迹
- 合成轨迹可以填补数据稀缺区域或时间段的空白,缓解数据稀疏问题
- 此外,若在轨迹生成过程中结合隐私保护技术,还可以有效降低用户隐私泄露风险
- 轨迹生成的目标是在给定环境约束下,生成既具备真实人类出行模式,又在统计特性上与真实轨迹高度相似的合成数据
- 论文对轨迹生成研究进行了系统且深入的分析
2 预备知识
3.1 轨迹数据
- 轨迹由一系列具有丰富属性的轨迹点组成,包含时间、空间和文本属性
- 时间属性通常用时间戳或时间范围表示
- 空间属性一般通过纬度和经度表示实体在物理空间中的位置
- 文本属性指的是轨迹点的语义或上下文信息,常包含兴趣点(POI)信息
- 在空间表示方面,轨迹数据可以分为自由空间(free space)与道路空间(road space)两种
- 在自由空间中,轨迹点之间的距离通常使用欧几里得距离计算
- 在道路空间中,通常用有向图 G=(V,E,W)表示路网,其中 V 表示道路端点,E 表示道路边,W表示边的权重
- 在道路空间中,轨迹点间的距离不是直线距离,而是通过一系列边的权重累加得出的道路距离
3.2 轨迹生成
3.2.1 问题定义
3.2.2 评估指标
合成轨迹的评估指标包括宏观指标和微观指标。
-
在宏观层面,主要评估合成轨迹的整体分布;
-
在微观层面,主要评估生成轨迹与真实轨迹之间的相似性。
3.2.2.1 宏观层面
宏观指标从移动模式的角度评估合成轨迹,涵盖以下几类:
-
轨迹范围(Trajectory range):指每个轨迹点与轨迹中心点之间的距离。在部分研究中称为回转半径(radius of gyration),用于反映人类移动范围的广度。
-
移动距离(Movement distance):指轨迹上相邻轨迹点之间的距离,一定程度上反映了一段时间内的出行距离。
-
位置排名(Location ranking):基于每个位置的访问频率进行排名,包含个体层面与群体层面的排名。个体排名关注个人偏好,群体排名则反映了在整体人群中位置的热门程度。
-
起终点流量(Origin-Destination flow):OD 矩阵反映了不同位置之间的流动情况,具体表征从起点到终点之间的流量。
-
停留时间(Staying time):指在每个位置的停留时长,是一个时间维度上的指标,能够反映代理体(agent)的活动状态。
- 在实现层面,Jensen-Shannon (JS) 散度 和 Kullback-Leibler (KL) 散度 通常用于衡量合成轨迹与真实数据在上述五个维度上的分布差异。
3.2.2.2 微观指标
- 微观指标关注轨迹之间的相似性或差异性,通常通过精确匹配或轨迹对比方式实现
- 主要用于细粒度的轨迹比对
- ——>轨迹相似度
- 非学习相似度测量方法
- 动态时间规整距离(DTW)
-
编辑距离类方法:
-
LCSS(Longest Common Subsequence)最长公共子序列
-
EDR(Edit Distance on Real Sequence)
-
ERP(Edit Distance with Real Penalty)
-
EDwP(Edit Distance with Warping Penalty)
-
-
Hausdorff 距离 与 离散 Fréchet 距离(DFD)
-
基于深度学习的方法
-
T2Vec、ST2Vec。。。
-
4 基于模型的轨迹生成方法
4.1 方法概述
- 基于模型的方法是在一个核心假设下进行轨迹生成:即移动轨迹服从预定义的规则或模型
- 这类方法通常利用概率模型(如马尔可夫过程)建模轨迹的状态转移,或直接采用预设的行为规则来模拟轨迹的运动方式。
- 这些方法通常不依赖大量训练数据
根据生成轨迹时所使用的规则或模型的不同,基于模型的方法可以分为三类:
-
基于行为规则的方法:依据人类移动模式生成移动轨迹,考虑时间、空间与社会因素;
-
基于交通仿真的方法:通过物理规则与交通流模型生成车辆轨迹,通常依赖交通仿真软件模拟整个交通系统;
-
基于概率模型的方法:利用概率模型捕捉轨迹的状态转移与变化,适用于复杂或不确定的移动行为。
4.2 基于行为规则的方法
4.2.1 人类移动行为的若干特征
规律性与可预测性 |
|
尺度特征与幂律分布 |
|
社会因素影响 |
|
探索与回归机制 |
|
4.2.2 轨迹生成模型
SLAW 模型 Lee K, Hong S, Kim SJ, Rhee I, Chong S (2009) SLAW: a new mobility model for human walks. In: INFOCOM. pp 855–863 |
|
SWIM 模型 Mei A, Stefa J (2009) SWIM: a simple model to generate small mobile worlds. In: INFOCOM. pp 2106–2113 |
|
SIMPS 模型 Borrel V, Legendre F, Amorim MD, Fdida S (2009) SIMPS: using sociology for personal mobility. IEEE/ACM Trans Netw 17(3):831–842 |
|
EPR 模型 Song C, Koren T, Wang P, Barabási A-L (2010) Modelling the scaling properties of human mobility. Nat Phys 6(10):818–823 |
|
d-EPR Pappalardo L, Simini F, Rinzivillo S, Pedreschi D, Giannotti F, Barabási A-L (2015) Returners and explorers dichotomy in human mobility. Nat Commun 6(1):8166 |
|
Geosim 模型 Toole JL, Herrera-Yaqüe C, Schneider CM, González MC (2015) Coupling human mobility and social ties. J R Soc Interface 12(105):20141128 |
|
4.3 基于交通仿真的方法
- 基于交通仿真的轨迹生成方法通过使用交通流模型与仿真工具,对交通网络中的车辆行为进行建模,从而生成符合真实交通系统规律的轨迹。
- 这类方法主要关注交通规则与环境因素的影响。通过模拟交通流、信号控制、变道行为等交通现象
VISSIM Fellendorf M (1994) Vissim: a microscopic simulation tool to evaluate actuated signal control including bus priority. In: 64th institute of transportation engineers annual meeting. pp 1– |
|
SUMO Krajzewicz D, Hertkorn G, Rössel C, Wagner P (2002) Sumo (simulation of urban mobility)-an open source traffic simulation. In: Proceedings of the 4th Middle East Symposium on Simulation and Modelling (MESM20002). pp 183–187 |
|
TRANSIMS NagelK,RickertM(2001)Parallelimplementation oftheTRANSIMSmicro-simulation.Parallel Com put 27(12):1611–1639 |
|
ParamGrid Klefstad R, Zhang Y, Lai M, Jayakrishnan R, Lavanya R (2005) A distributed, scalable, and synchro nized framework for large-scale microscopic traffic simulation. In: Proceedings. 2005 IEEE intelligent transportation systems, 2005. pp 813–818 |
|
4.4 基于概率模型的方法
- 基于概率模型的轨迹生成方法通过历史轨迹数据的统计模式来生成移动轨迹
- 通过分析历史轨迹推断出位置之间的转移概率分布,从而估计个体在未来时刻或位置出现的概率
- 侧重于从统计学视角建模轨迹生成过程,而不是依赖于具体的行为假设或交通规则
基于概率模型的轨迹生成方法通常采用 马尔可夫模型(Markov Model),包括:
-
隐马尔可夫模型(HMM)
-
Mathew W, Raposo R, Martins B (2012) Predicting future locations with hidden markov models. In: Ubicomp. pp 911–918
-
Bindschaedler V, Shokri R (2016) Synthesizing plausible privacy-preserving location traces. In: IEEE symposium on security and privacy. pp 546–563
-
-
输入输出隐马尔可夫模型(IO-HMM)
-
YinM,SheehanM,FeyginS,PaiementJ,PozdnoukhovA(2018)Agenerativemodelofurbanactivities from cellular data. IEEE Trans Intell Transp Syst 19(6):1682–1696
-
-
隐半马尔可夫模型(HSMM)
-
Baratchi M, Meratnia N, Havinga PJM, Skidmore AK, Toxopeus BAG (2014) A hierarchical hidden semi-markov model for modeling mobility data. In: UbiComp ’14, Seattle. pp 401–412
-
5 基于学习的轨迹生成方法
5.1 方法概述
- 基于学习的方法通过学习真实轨迹中的特征(包括时空特征和文本属性),以生成与真实轨迹相似的合成轨迹。
- 与基于模型的方法相比,学习方法能够生成更贴近真实世界模式的轨迹数据
- 其核心是使用深度学习技术从真实轨迹数据中学习时空模式,进而为下游任务生成高质量的合成轨迹。
- 基于学习的方法主要可分为以下几类:
- 生成对抗网络(GANs):
- 通过生成器与判别器之间的对抗机制进行轨迹优化。
- 生成器负责生成新的轨迹数据,判别器用于判断轨迹是真实的还是合成的,从而提升生成轨迹的真实性。
- 变分自编码器(VAEs)
- 将轨迹数据映射到潜在空间(latent space),并从该空间中采样以生成多样性的轨迹数据。
- 扩散模型(Diffusion Models)
- 先向轨迹数据中逐步添加噪声,将其转换为高斯分布,然后通过逐步去噪的方式还原轨迹数据。
- 该过程有助于提高生成结果的隐私性。
- 生成对抗网络(GANs):
5.2 基于GAN的方法
- 生成器学习数据分布,将随机噪声转换为与训练数据相似的样本
- 判别器学习判断样本来源于真实数据分布还是模型生成的分布
Ouyang K, Shokri R, Rosenblum DS, Yang W (2018) A non-parametric generative model for human trajectories. In: IJCAI. pp 3812–3817 | 提出一种非参数的 GAN 模型,不需要对目标分布做显式假设,直接通过对抗学习从轨迹数据中学习其分布 将轨迹数据转换为稀疏矩阵,将访问时间与停留时间映射到网格中,并使用 CNN 学习其中的复杂空间特征。 |
MoveSim Feng J, Yang Z, Xu F, Yu H, Wang M, Li Y (2020) Learning to simulate human mobility. In: KDD. pp 3426–3433 | 结合了 GAN 与人类行为先验知识 生成器由 SeqNet(基于自注意力的时间建模) 和 RegNet(引入城市结构的区域建模网络) 组成
判别器基于 CNN,设计了兼顾空间连续性与时间周期性的损失函数 |
TrajGen Cao C, Li M(2021) Generating mobility trajectories with retained data utility. In: KDD. pp 2610–2620 | 结合 GAN 与 Seq2Seq 模型,分别处理空间与时间信息 空间信息被映射为二维图像,通过深度卷积生成对抗网络(DCGAN)生成图像形式的轨迹位置
时间信息则通过 Seq2Seq 进行建模 |
LSTM-TrajGAN Rao J, Gao S, Kang Y, Huang Q (2021) Lstm-trajgan: a deep learning approach to trajectory privacy protection. In: GIScience. pp 12–1121743 | 结合 LSTM 与 GAN 的优势,生成时间序列轨迹 |
这些基于图像或矩阵的转换方式会引入轨迹不连续性的问题
一些研究采用 两阶段 GAN 框架,第一阶段生成稀疏或大范围轨迹,第二阶段生成更细致、局部范围的轨迹,从而提高轨迹的连贯性:
Wang X, Liu X, Lu Z, Yang H (2021) Large scale gps trajectory generation using map based on two stage gan. J Data Sci 19(1):126–141 |
|
TS-TrajGen Jiang W, Zhao WX, Wang J, Jiang J (2023) Continuous trajectory generation based on two-stage GAN. In: AAAI. pp 4374–4382 |
|
除时空属性外,外部信息(如城市结构、活动类型)也在轨迹生成中起重要作用
STAGE CaoZ,LiuK,JinX,NingL,YinL,LuF(2024)Stage:aspatiotemporal-knowledgeenhancedmulti-task generative adversarial network (gan) for trajectory generation. Int J Geogr Inf Sci 1–28 |
|
STAR(Spatio-Temporal-Augmented Graph Network) Wang Y, Zheng T, Liu S, Feng Z, Chen K, Hao Y, Song M (2024) Spatiotemporal-augmented graph neural networks for human mobility simulation. IEEE Trans Knowl Data Eng 36(11):7074–7086 |
|
5.3 基于变分自编码器(VAE)的方法
- 变分自编码器(VAE)由两部分组成:编码器(Encoder) 和 解码器(Decoder)
- 编码器负责将原始数据转换为低维的潜在表示
- 解码器则从潜在空间中采样并生成新的数据样本
- VAE 的训练目标是:
- 最小化解码器生成的数据与原始数据之间的差异;
- 最小化编码器生成的潜在表示分布与先验分布之间的差异。
- 相比 GAN,VAE 训练更稳定,但生成样本的质量可能不如 GAN。
- β-VAE是 VAE 的一个变体,其中 β 是控制 KL 散度项权重的超参数,可以影响潜在空间的结构。
- 通过调节 β,模型能够生成具有更清晰结构和可控特征的样本
Ding W, Wang W, Zhao D (2019) A multi-vehicle trajectories generator to simulate vehicle-to-vehicle encountering scenarios. In: ICRA. pp 4255–4261 |
|
Huang D, Song X, Fan Z, Jiang R, Shibasaki R, Zhang Y, Wang H, Kato Y (2019) A variational autoencoder based generative model of urban human mobility. In: MIPR. pp 425–430 |
|
Zhou F, Liu X, Zhang K, Trajcevski G (2021) Toward discriminating and synthesizing motion traces using deep probabilistic generative models. IEEE Trans Neural Netw Learn Syst 32(6):2401–2414 |
|
5.4 基于扩散模型的方法
- 扩散模型(Diffusion Model)是一种基于噪声的生成模型,包含两个过程:
-
正向过程(forward process):
-
逐步向真实数据添加噪声,使其渐进式地变为随机噪声;
-
-
反向过程(reverse process):
-
学习如何逐步去噪,重构数据结构
-
-
-
在轨迹生成中,轨迹分布在正向过程中被扰动,反向过程用于恢复真实轨迹
Traj-UNet ZhuY,YeY,ZhangS,ZhaoX,YuJ(2023) Difftraj: generating GPS trajectory with diffusion probabilistic model. In: NeurIPS | 基于图像处理中常用的 U-Net 结构,结合残差块与多尺度特征融合,在去噪过程中保留时空特征。 |
TrajGDM ChuC,ZhangH,WangP,LuF(2024) Simulating human mobility with a trajectory generation framework based on diffusion model. Int J Geogr Inf Sci 38(5):847–878 | 轨迹解码器为基于 Transformer 的生成网络,用于捕捉轨迹的时空关系 |
后续研究进一步引入道路拓扑约束,使生成轨迹不仅符合时空特性,也满足道路网络约束
RoadMAE ZhuY,YuJJQ,ZhaoX, LiuQ,YeY,ChenW, ZhangZ,WeiX,LiangY(2024) Controltraj: controllable trajectory generation with topology-constrained diffusion model. In: KDD. pp 4676–4687 | 结合道路拓扑与行程属性信息生成现实轨迹 |
RNTraj Wei T, Lin Y, Guo S, Lin Y, Huang Y, Xiang C, Bai Y, Wan H (2024) Diff-rntraj: A structure aware diffusion model for road network-constrained trajectory generation. IEEE Trans Knowl Data Eng 36(12):7940–7953 | 将轨迹点表示为 (e, r),其中 e 表示道路段,r 表示已行驶距离占道路段长度的比例 通过扩散过程生成轨迹,并设计空间可达性损失函数,确保生成轨迹满足道路网络的可通行性 |
6 结论与未来方向
- 论文将轨迹生成方法划分为基于模型的方法与基于学习的方法
- 基于模型的方法假设移动模式遵循预定义的规则或模型,从而生成轨迹
- 基于学习的方法通过分析真实轨迹数据中的移动规律进行学习,并据此生成新的轨迹
- 论文提出若干未来可探索的研究方向:
- 隐私保护与生成质量的权衡问题
- 隐私保护技术在轨迹生成中有助于缓解隐私泄露风险,但往往会对生成轨迹的质量产生影响
- 未来研究可聚焦于如何最小化隐私保护与轨迹生成准确性之间的权衡
- Transformer 与大语言模型的集成应用
- Transformer 在捕捉时空依赖关系方面具有强大能力,将其与生成模型结合用于轨迹生成可能成为一种趋势
- 同时,这也预示着大语言模型(LLMs)在轨迹生成领域的应用潜力正不断增长。
- 融合模型驱动与学习驱动方法
- 将基于模型的方法与基于学习的方法相结合,可能成为未来轨迹生成的重要发展方向
- 隐私保护与生成质量的权衡问题