亲爱的研友该休息了!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!身体可是革命的本钱,早点休息,好梦!

Cross-modal video moment retrieval based on visual-textual relationship alignment

计算机科学 情报检索 情态动词 图形 相似性(几何) 构造(python库) 语义学(计算机科学) 力矩(物理) 人工智能 多媒体 理论计算机科学 图像(数学) 物理 经典力学 高分子化学 程序设计语言 化学
作者
Joya Chen,Hao Du,Yufei Wu,Tong Bill Xu,Enhong Chen
出处
期刊:Zhongguo kexue [Science in China Press]
卷期号:50 (6): 862-876 被引量:6
标识
DOI:10.1360/ssi-2019-0292
摘要

期 41.8 s 53.6 s Language query A person is playing basketball 图 1 (网络版彩图) 跨模态视频片段检索的示例 Figure 1 (Color online) An example for cross-modal video moment retrieval playing basketball), 跨模态视频片段检索将输出 41.8∼53.6 s 这个时间片段, 在这个时间段内视频中的 人正在进行篮球运动.尽管跨模态视频片段检索任务的定义简洁, 应用前景广阔, 它却是一个极具挑战的任务.已有研 究 [5∼7] 表明, 为了实现视觉信息与文本信息之间的匹配, 视频与查询文本的特征表达方式需要精心设 计. 随着以深度神经网络 [8∼10] 为代表的机器学习方法在物体识别 [11] 、动作分类 [12] 、词向量 [13,14] 、 逻辑推理 [15] 、视频理解 [16,17] 等领域的发展, 研究者们开始关注如何利用其构建的视频与查询文本的 特征表达方式.早期的工作 [5,6] 确立了跨模态视频片段检索任务中视频与查询文本特征表达的基本 范式: (1) 将视频分割为多个候选视频片段, 采用动作识别的 C3D [12] 或者双流网络 [18,19] 来提取候选 视频片段的特征;(2) 采用词向量 [13] 与 LSTM [20] 来提取查询文本的特征; (3) 将视频与文本的特征 联合映射到同一空间来形成检索特征 [5] , 或者是计算两者特征之间的距离 [6] .在上述范式的基础上, 部分研究者开始探索更好的特征表达方式 [7, 21∼23] , 如 Liu 等 [22] 与 Yuan 等 [23] 提出利用注意力机 制 [24] 来增强视频片段与查询文本的特征表达; 另一部分研究者关注如何对齐细粒度的视觉信息与文 本信息来提升检索质量 [25∼27] , 如 Jiang 等 [26] 与 Wang 等 [27] 引入目标检测网络 Faster R-CNN [11] 来 检测视觉物体, 从而匹配文本中对应描述的实体.在流行的跨模态视频片段检索数据集 [5,6,28,29] 上, 基于细粒度表达的检索方法取得了领先的性能水准, 充分说明了该表达方式的必要性.然而, 上述细粒度的表达方式仅仅从独立的角度来考虑视频与文本中出现的物体, 缺乏对物体之 间语义关系的表达, 这可能会限制跨模态视频片段检索质量的提升. 在视觉层面, 这种被忽略的语义 关系刻画了视觉物体间的交互; 在文本层面, 这种被忽略的语义关系描述了语言实体间的联系.它所 具有的典型特点为精确性: 如, 查询文本为 "一个人在打篮球", 期望检索出的视频片段包含 "人打篮 球" 而不是 "人抱篮球", "人打乒乓球" 的关系; 最近涌现的一部分工作 [26,27,30,31] 考虑了视觉中的目 标检测, 遗憾的是, 它们未能分析文本中的实体, 并将视觉中的语义关系与文本中的语义关系对齐.借助于图 (graph) 结构在表达关系时的强大能力 [32,33] 与图卷积网络 [34,35] 的近年发展, 本文提 出基于视觉 -文本关系对齐的图卷积框架 CrossGraphAlign, 用以赋予现有跨模态视频片段检索框架 中匹配语义关系的能力.具体而言, CrossGraphAlign 首先为查询文本与待检索视频分别生成文本关 系图与视觉关系图; 接着, CrossGraphAlign 中的视觉 -文本关系对齐的图卷积网络将试图匹配一段 时间内的文本关系图与视觉关系图; 最后, 基于匹配结果, CrossGraphAlign 将预测查询文本在视频中 的起始时间和结束时间.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
chao完成签到,获得积分10
3秒前
小蘑菇应助开心岩采纳,获得10
19秒前
科研通AI2S应助歇歇的效率采纳,获得10
23秒前
臣粉完成签到 ,获得积分10
28秒前
愉快凡旋发布了新的文献求助10
28秒前
Danny完成签到,获得积分10
28秒前
科研小白发布了新的文献求助10
30秒前
打打应助科研通管家采纳,获得10
34秒前
pop完成签到,获得积分10
36秒前
瘦瘦的铅笔完成签到 ,获得积分10
37秒前
搜集达人应助lalalatiancai采纳,获得10
40秒前
41秒前
点点zzz发布了新的文献求助10
46秒前
愉快凡旋完成签到,获得积分10
46秒前
李爱国应助科研小白采纳,获得10
50秒前
长情黄蜂发布了新的文献求助200
55秒前
1分钟前
科研通AI2S应助文武采纳,获得10
1分钟前
1分钟前
自由的水杯完成签到,获得积分10
1分钟前
1分钟前
科研小白发布了新的文献求助10
1分钟前
1分钟前
1分钟前
lalalatiancai发布了新的文献求助10
1分钟前
1分钟前
1分钟前
lalalatiancai完成签到,获得积分20
1分钟前
ccherty发布了新的文献求助10
1分钟前
www完成签到 ,获得积分10
1分钟前
1分钟前
程风破浪完成签到,获得积分10
1分钟前
鹏程万里完成签到,获得积分10
1分钟前
可爱的函函应助科研小白采纳,获得10
1分钟前
1分钟前
1分钟前
悄悄拔尖儿完成签到 ,获得积分10
1分钟前
1分钟前
科研小白发布了新的文献求助10
1分钟前
源源源完成签到 ,获得积分10
2分钟前
高分求助中
Continuum Thermodynamics and Material Modelling 3000
Production Logging: Theoretical and Interpretive Elements 2700
Mechanistic Modeling of Gas-Liquid Two-Phase Flow in Pipes 2500
Structural Load Modelling and Combination for Performance and Safety Evaluation 1000
Conference Record, IAS Annual Meeting 1977 610
電気学会論文誌D(産業応用部門誌), 141 巻, 11 号 510
Virulence Mechanisms of Plant-Pathogenic Bacteria 500
热门求助领域 (近24小时)
化学 材料科学 生物 医学 工程类 有机化学 生物化学 物理 纳米技术 计算机科学 内科学 化学工程 复合材料 基因 遗传学 物理化学 催化作用 量子力学 光电子学 冶金
热门帖子
关注 科研通微信公众号,转发送积分 3561907
求助须知:如何正确求助?哪些是违规求助? 3135489
关于积分的说明 9412388
捐赠科研通 2835888
什么是DOI,文献DOI怎么找? 1558793
邀请新用户注册赠送积分活动 728452
科研通“疑难数据库(出版商)”最低求助积分说明 716832