作者
Joya Chen,Hao Du,Yufei Wu,Tong Bill Xu,Enhong Chen
摘要
期 41.8 s 53.6 s Language query A person is playing basketball 图 1 (网络版彩图) 跨模态视频片段检索的示例 Figure 1 (Color online) An example for cross-modal video moment retrieval playing basketball), 跨模态视频片段检索将输出 41.8∼53.6 s 这个时间片段, 在这个时间段内视频中的 人正在进行篮球运动.尽管跨模态视频片段检索任务的定义简洁, 应用前景广阔, 它却是一个极具挑战的任务.已有研 究 [5∼7] 表明, 为了实现视觉信息与文本信息之间的匹配, 视频与查询文本的特征表达方式需要精心设 计. 随着以深度神经网络 [8∼10] 为代表的机器学习方法在物体识别 [11] 、动作分类 [12] 、词向量 [13,14] 、 逻辑推理 [15] 、视频理解 [16,17] 等领域的发展, 研究者们开始关注如何利用其构建的视频与查询文本的 特征表达方式.早期的工作 [5,6] 确立了跨模态视频片段检索任务中视频与查询文本特征表达的基本 范式: (1) 将视频分割为多个候选视频片段, 采用动作识别的 C3D [12] 或者双流网络 [18,19] 来提取候选 视频片段的特征;(2) 采用词向量 [13] 与 LSTM [20] 来提取查询文本的特征; (3) 将视频与文本的特征 联合映射到同一空间来形成检索特征 [5] , 或者是计算两者特征之间的距离 [6] .在上述范式的基础上, 部分研究者开始探索更好的特征表达方式 [7, 21∼23] , 如 Liu 等 [22] 与 Yuan 等 [23] 提出利用注意力机 制 [24] 来增强视频片段与查询文本的特征表达; 另一部分研究者关注如何对齐细粒度的视觉信息与文 本信息来提升检索质量 [25∼27] , 如 Jiang 等 [26] 与 Wang 等 [27] 引入目标检测网络 Faster R-CNN [11] 来 检测视觉物体, 从而匹配文本中对应描述的实体.在流行的跨模态视频片段检索数据集 [5,6,28,29] 上, 基于细粒度表达的检索方法取得了领先的性能水准, 充分说明了该表达方式的必要性.然而, 上述细粒度的表达方式仅仅从独立的角度来考虑视频与文本中出现的物体, 缺乏对物体之 间语义关系的表达, 这可能会限制跨模态视频片段检索质量的提升. 在视觉层面, 这种被忽略的语义 关系刻画了视觉物体间的交互; 在文本层面, 这种被忽略的语义关系描述了语言实体间的联系.它所 具有的典型特点为精确性: 如, 查询文本为 "一个人在打篮球", 期望检索出的视频片段包含 "人打篮 球" 而不是 "人抱篮球", "人打乒乓球" 的关系; 最近涌现的一部分工作 [26,27,30,31] 考虑了视觉中的目 标检测, 遗憾的是, 它们未能分析文本中的实体, 并将视觉中的语义关系与文本中的语义关系对齐.借助于图 (graph) 结构在表达关系时的强大能力 [32,33] 与图卷积网络 [34,35] 的近年发展, 本文提 出基于视觉 -文本关系对齐的图卷积框架 CrossGraphAlign, 用以赋予现有跨模态视频片段检索框架 中匹配语义关系的能力.具体而言, CrossGraphAlign 首先为查询文本与待检索视频分别生成文本关 系图与视觉关系图; 接着, CrossGraphAlign 中的视觉 -文本关系对齐的图卷积网络将试图匹配一段 时间内的文本关系图与视觉关系图; 最后, 基于匹配结果, CrossGraphAlign 将预测查询文本在视频中 的起始时间和结束时间.