Cross-modal video moment retrieval based on visual-textual relationship alignment

计算机科学 情报检索 情态动词 图形 相似性(几何) 构造(python库) 语义学(计算机科学) 力矩(物理) 人工智能 多媒体 理论计算机科学 图像(数学) 物理 经典力学 高分子化学 程序设计语言 化学
作者
Joya Chen,Hao Du,Yufei Wu,Tong Bill Xu,Enhong Chen
出处
期刊:Zhongguo kexue [Science China Press]
卷期号:50 (6): 862-876 被引量:6
标识
DOI:10.1360/ssi-2019-0292
摘要

期 41.8 s 53.6 s Language query A person is playing basketball 图 1 (网络版彩图) 跨模态视频片段检索的示例 Figure 1 (Color online) An example for cross-modal video moment retrieval playing basketball), 跨模态视频片段检索将输出 41.8∼53.6 s 这个时间片段, 在这个时间段内视频中的 人正在进行篮球运动.尽管跨模态视频片段检索任务的定义简洁, 应用前景广阔, 它却是一个极具挑战的任务.已有研 究 [5∼7] 表明, 为了实现视觉信息与文本信息之间的匹配, 视频与查询文本的特征表达方式需要精心设 计. 随着以深度神经网络 [8∼10] 为代表的机器学习方法在物体识别 [11] 、动作分类 [12] 、词向量 [13,14] 、 逻辑推理 [15] 、视频理解 [16,17] 等领域的发展, 研究者们开始关注如何利用其构建的视频与查询文本的 特征表达方式.早期的工作 [5,6] 确立了跨模态视频片段检索任务中视频与查询文本特征表达的基本 范式: (1) 将视频分割为多个候选视频片段, 采用动作识别的 C3D [12] 或者双流网络 [18,19] 来提取候选 视频片段的特征;(2) 采用词向量 [13] 与 LSTM [20] 来提取查询文本的特征; (3) 将视频与文本的特征 联合映射到同一空间来形成检索特征 [5] , 或者是计算两者特征之间的距离 [6] .在上述范式的基础上, 部分研究者开始探索更好的特征表达方式 [7, 21∼23] , 如 Liu 等 [22] 与 Yuan 等 [23] 提出利用注意力机 制 [24] 来增强视频片段与查询文本的特征表达; 另一部分研究者关注如何对齐细粒度的视觉信息与文 本信息来提升检索质量 [25∼27] , 如 Jiang 等 [26] 与 Wang 等 [27] 引入目标检测网络 Faster R-CNN [11] 来 检测视觉物体, 从而匹配文本中对应描述的实体.在流行的跨模态视频片段检索数据集 [5,6,28,29] 上, 基于细粒度表达的检索方法取得了领先的性能水准, 充分说明了该表达方式的必要性.然而, 上述细粒度的表达方式仅仅从独立的角度来考虑视频与文本中出现的物体, 缺乏对物体之 间语义关系的表达, 这可能会限制跨模态视频片段检索质量的提升. 在视觉层面, 这种被忽略的语义 关系刻画了视觉物体间的交互; 在文本层面, 这种被忽略的语义关系描述了语言实体间的联系.它所 具有的典型特点为精确性: 如, 查询文本为 "一个人在打篮球", 期望检索出的视频片段包含 "人打篮 球" 而不是 "人抱篮球", "人打乒乓球" 的关系; 最近涌现的一部分工作 [26,27,30,31] 考虑了视觉中的目 标检测, 遗憾的是, 它们未能分析文本中的实体, 并将视觉中的语义关系与文本中的语义关系对齐.借助于图 (graph) 结构在表达关系时的强大能力 [32,33] 与图卷积网络 [34,35] 的近年发展, 本文提 出基于视觉 -文本关系对齐的图卷积框架 CrossGraphAlign, 用以赋予现有跨模态视频片段检索框架 中匹配语义关系的能力.具体而言, CrossGraphAlign 首先为查询文本与待检索视频分别生成文本关 系图与视觉关系图; 接着, CrossGraphAlign 中的视觉 -文本关系对齐的图卷积网络将试图匹配一段 时间内的文本关系图与视觉关系图; 最后, 基于匹配结果, CrossGraphAlign 将预测查询文本在视频中 的起始时间和结束时间.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
ZHI发布了新的文献求助10
1秒前
叡叡完成签到,获得积分10
1秒前
fyjlfy发布了新的文献求助10
1秒前
未来发布了新的文献求助10
1秒前
洋芋发布了新的文献求助10
2秒前
3336929526发布了新的文献求助10
3秒前
4秒前
4秒前
4秒前
杉边留下了新的社区评论
5秒前
student完成签到,获得积分10
5秒前
5秒前
王东完成签到,获得积分10
5秒前
孝顺的天思完成签到,获得积分10
6秒前
6秒前
李爱国应助kingcoming采纳,获得10
7秒前
花样年华完成签到,获得积分10
8秒前
9秒前
orixero应助西西采纳,获得10
9秒前
通科研发布了新的文献求助10
9秒前
9秒前
Kyrie发布了新的文献求助10
9秒前
10秒前
尤静柏发布了新的文献求助10
10秒前
华仔应助洋芋采纳,获得10
10秒前
所所应助HM采纳,获得10
11秒前
11秒前
饶雨飞完成签到,获得积分10
11秒前
ZHI完成签到,获得积分10
12秒前
13秒前
研友_VZG7GZ应助tttt采纳,获得10
15秒前
hahahahaha发布了新的文献求助10
15秒前
可爱的函函应助SunGuangkai采纳,获得10
15秒前
热情馒头完成签到,获得积分10
16秒前
18秒前
Zjj完成签到 ,获得积分10
18秒前
饶雨飞发布了新的文献求助10
18秒前
斯文香彤完成签到,获得积分10
18秒前
18秒前
科研通AI6.3应助oyz采纳,获得30
20秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Les Mantodea de Guyane Insecta, Polyneoptera 2000
Leading Academic-Practice Partnerships in Nursing and Healthcare: A Paradigm for Change 800
Signals, Systems, and Signal Processing 610
Research Methods for Business: A Skill Building Approach, 9th Edition 500
Research Methods for Applied Linguistics 500
Picture Books with Same-sex Parented Families Unintentional Censorship 444
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6412313
求助须知:如何正确求助?哪些是违规求助? 8231450
关于积分的说明 17470309
捐赠科研通 5465109
什么是DOI,文献DOI怎么找? 2887561
邀请新用户注册赠送积分活动 1864318
关于科研通互助平台的介绍 1702915