Weakly-supervised Temporal Path Representation Learning with Contrastive Curriculum Learning

动机

在这种情况下，必须学习通用的时间路径表征（TPRs），同时考虑空间和时间的相关性，并能用于不同的应用，即下游任务。现有的方法无法实现这一目标，因为（1）监督方法在训练时需要大量特定任务的标签，因此无法将获得的TPR推广到其他任务中；（2）尽管无监督方法可以学习通用表征，但它们忽略了时间方面，导致了次优的结果。为了应对现有解决方案的局限性，我们提出了一个弱监督的对比学习模型。

下游任务：旅行时间估计、路径排名和路径推荐

贡献

提出了时间路径表示学习问题。

提出了一个弱监督、对比性的模型（基本框架）来学习考虑到时间信息的通用路径表征。

将课程学习整合到弱监督对比模型中，以进一步增强所学到的时间路径表征，从而产生高级框架。

定义

一个道路网络被定义为一个有向图G=（V，E），其中V是一组代表交叉点的顶点vi，E⊂V×V是一组代表边的边ei=（vj，vk）

一个时间路径由tp=（p，t）

问题定义

给定一组时间路径TP={tp1, tp2, ……tpn}，其中每个时空路径TPI都有一个弱标签yi，时空路径表征学习（TPRL）旨在为每个时空路径TPI∈TP学习一个时空路径表征

方法

TEMPORAL PATH ENCODER

Temporal Embedding

最终确定的时间表示

Spatial Embedding

捕捉空间特征：

考虑以下四种类型的空间边缘特征：道路类型（RT）：一个分类值，包括一级、二级、住宅等。车道数(NoL)：一个实值，代表边缘的交通车道数。单行道（OW）：一个布尔值，表示边缘是否为单行道。交通信号(TS): 一个布尔值，表示边缘上是否有一个或多个交通信号。

独热向量密集化

将所有四个密集特征串联起来，作为最终空间特征嵌入：

路网拓扑：

边表征

最终空间表征

LSTM Encoder

给定一个时空表征序列

使用LSTM

Aggregate Function

WEAKLY-SUPERVISED CONTRASTIVE LEARNING

为了确保我们获得适用于不同下游任务的通用TPR，我们采用对比性学习来构建整个框架的学习目标。在这里，我们首先详细介绍了具有弱标签的正负样本生成。然后，我们展示了如何构建弱监督的对比性全局和局部损失。

正负样本生成

假设我们有一组时间路径，正的TP不仅是同一时间路径的不同表述，而且还包括以相同的弱标签穿越同一路径的TPs。相比之下，负的TPs属于三类：（i）相同的路径但不同的弱标签；（ii）不同的路径但相同的弱标签；（iii）不同的路径和不同的弱标签。因此，我们可以为一个查询的TP生成多个正面和负面的TP。

图5中的MiniBatch样本块显示了一个例子，有五个TP，即tpq、tp1、tp2、p3和tp4，以及三个弱标签，即早高峰（Mor. Peak）、下午高峰（Aft. Peak）和非高峰。如果我们把tpq作为查询的TP，tp1就是相应的正样本，因为两者有相同的路径（即〈e1，e2，e3，e4〉）和相同的出发弱标签（即Mor.Peak），尽管它们的具体出发时间不同。接下来，tp2、tp3和tp4是负样本，其中tp2有相同的路径但有不同的弱标签，tp3有不同的路径和不同的弱标签，而tp4有不同的路径但有相同的弱标签。

全局弱监督对比损失

自监督损失

全局对比损失

局部对比损失

目标函数

CONTRASTIVE CURRICULUM LEARNING

1）在课程样本评估中，我们给训练数据集中的路径pi分配一个难度分值Si，该分值反映了模型学习一个好的表征的难度，即路径pi的难度。2）在课程样本选择中，我们旨在将训练数据划分为不同的难度阶段。更具体地说，我们首先根据难度分值对训练数据进行排序。然后，我们将排序后的训练数据分成一串排序后的学习阶段{ST i|i = 1, 2, …., M }，按照从易到难的方式。最后，我们的基础模型，WSC，根据这个课程进行训练。

课程样本评估

课程样本选择

实验

数据集

下游任务

路径旅行时间估计

路径排名

路径推荐

基线

无监督

Node2vec

Memory Bank (MB)

InfoGraph

BERT

PIM

监督

DeepGTT

HMTRL

PathRank

GCN

STGCN

下游任务的模型：

对于所有的无监督学习方法，我们首先获得一个与任务无关的TPR，然后应用一个回归模型来解决使用特定任务标签的不同下游任务。在实验中，我们使用集合模型Gradient Boosting Regressor（GBR）来估计路径的旅行时间和排名分数，因为它们是回归问题。此外，我们使用集合模型梯度提升分类器（GBC）来进行路径推荐，因为它们是分类问题。