X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval

计算机科学 情报检索 代表(政治) 光学(聚焦) 联营 编码 相似性(几何) 召回 情态动词 水准点(测量) 自然语言处理 人工智能 图像(数学) 语言学 大地测量学 政治学 生物化学 政治 基因 光学 物理 哲学 化学 高分子化学 法学 地理
作者
Satya Krishna Gorti,Noël Vouitsis,Wei Ma,Keyvan Golestan,Maksims Volkovs,Animesh Garg,Guangwei Yu
出处
期刊:Cornell University - arXiv 被引量:1
标识
DOI:10.48550/arxiv.2203.15086
摘要

In text-video retrieval, the objective is to learn a cross-modal similarity function between a text and a video that ranks relevant text-video pairs higher than irrelevant pairs. However, videos inherently express a much wider gamut of information than texts. Instead, texts often capture sub-regions of entire videos and are most semantically similar to certain frames within videos. Therefore, for a given text, a retrieval model should focus on the text's most semantically similar video sub-regions to make a more relevant comparison. Yet, most existing works aggregate entire videos without directly considering text. Common text-agnostic aggregations schemes include mean-pooling or self-attention over the frames, but these are likely to encode misleading visual information not described in the given text. To address this, we propose a cross-modal attention model called X-Pool that reasons between a text and the frames of a video. Our core mechanism is a scaled dot product attention for a text to attend to its most semantically similar frames. We then generate an aggregated video representation conditioned on the text's attention weights over the frames. We evaluate our method on three benchmark datasets of MSR-VTT, MSVD and LSMDC, achieving new state-of-the-art results by up to 12% in relative improvement in Recall@1. Our findings thereby highlight the importance of joint text-video reasoning to extract important visual cues according to text. Full code and demo can be found at: https://layer6ai-labs.github.io/xpool/
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
1秒前
1秒前
CodeCraft应助平常远山采纳,获得10
1秒前
Owen应助Promise采纳,获得10
3秒前
4秒前
5秒前
科研通AI5应助DDB采纳,获得10
5秒前
6秒前
所所应助爱X7的嘛喽采纳,获得30
6秒前
星辰大海应助爱X7的嘛喽采纳,获得10
6秒前
6秒前
谦让乐曲完成签到,获得积分20
7秒前
8秒前
海棠微雨完成签到,获得积分10
8秒前
9秒前
。。。完成签到,获得积分10
9秒前
大椒完成签到 ,获得积分10
9秒前
唐小刚完成签到,获得积分10
10秒前
HAHA完成签到,获得积分10
11秒前
Yyinge发布了新的文献求助10
11秒前
11秒前
小芒果完成签到,获得积分0
11秒前
11秒前
11秒前
平常远山发布了新的文献求助10
12秒前
12秒前
和谐蛋蛋完成签到,获得积分10
12秒前
yuhaolove发布了新的文献求助10
12秒前
鲍勃完成签到,获得积分10
14秒前
ss发布了新的文献求助10
14秒前
16秒前
咯咯哒发布了新的文献求助10
18秒前
健忘的曼卉完成签到,获得积分10
18秒前
18秒前
清新的碧曼完成签到 ,获得积分10
18秒前
18秒前
彭于晏应助lily336699采纳,获得10
18秒前
19秒前
Casey完成签到 ,获得积分10
19秒前
20秒前
高分求助中
【此为提示信息,请勿应助】请按要求发布求助,避免被关 20000
Continuum Thermodynamics and Material Modelling 2000
105th Edition CRC Handbook of Chemistry and Physics 1600
ISCN 2024 – An International System for Human Cytogenomic Nomenclature (2024) 1000
CRC Handbook of Chemistry and Physics 104th edition 1000
Izeltabart tapatansine - AdisInsight 600
An International System for Human Cytogenomic Nomenclature (2024) 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3769147
求助须知:如何正确求助?哪些是违规求助? 3314193
关于积分的说明 10171062
捐赠科研通 3029255
什么是DOI,文献DOI怎么找? 1662296
邀请新用户注册赠送积分活动 794827
科研通“疑难数据库(出版商)”最低求助积分说明 756421