Multi-grained Representation Learning for Cross-modal Retrieval

计算机科学 特征学习 粒度 代表(政治) 情态动词 水准点(测量) 相似性(几何) 集合(抽象数据类型) 人工智能 骨料(复合) 自然语言处理 情报检索 法学 程序设计语言 地理 材料科学 复合材料 高分子化学 化学 图像(数学) 操作系统 政治 政治学 大地测量学
作者
Shengwei Zhao,Linhai Xu,Yuying Liu,Shaoyi Du
标识
DOI:10.1145/3539618.3592025
摘要

The purpose of audio-text retrieval is to learn a cross-modal similarity function between audio and text, enabling a given audio/text to find similar text/audio from a candidate set. Recent audio-text retrieval models aggregate multi-modal features into a single-grained representation. However, single-grained representation is difficult to solve the situation that an audio is described by multiple texts of different granularity levels, because the association pattern between audio and text is complex. Therefore, we propose an adaptive aggregation strategy to automatically find the optimal pool function to aggregate the features into a comprehensive representation, so as to learn valuable multi-grained representation. And multi-grained comparative learning is carried out in order to focus on the complex correlation between audio and text in different granularity. Meanwhile, text-guided token interaction is used to reduce the impact of redundant audio clips. We evaluated our proposed method on two audio-text retrieval benchmark datasets of Audiocaps and Clotho, achieving the state-of-the-art results in text-to-audio and audio-to-text retrieval. Our findings emphasize the importance of learning multi-modal multi-grained representation.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
紫鸢完成签到,获得积分10
1秒前
2秒前
4秒前
苹果怡发布了新的文献求助10
6秒前
LWJ发布了新的文献求助10
7秒前
10秒前
10秒前
余余发布了新的文献求助10
11秒前
烟花应助mujianhua采纳,获得10
13秒前
gory发布了新的文献求助10
15秒前
方赫然应助我要发paper采纳,获得10
16秒前
蔺彦丽完成签到,获得积分10
18秒前
19秒前
lzqlzqlzqlzqlzq完成签到,获得积分10
19秒前
mujianhua完成签到,获得积分20
19秒前
19秒前
lcx完成签到,获得积分10
20秒前
21秒前
ywzwszl完成签到,获得积分10
24秒前
小鱼爱吃肉应助wuyongmei采纳,获得10
24秒前
mujianhua发布了新的文献求助10
24秒前
26秒前
26秒前
田様应助yiyi采纳,获得10
28秒前
CodeCraft应助taoyiyan采纳,获得10
29秒前
高大鹅发布了新的文献求助10
31秒前
33秒前
36秒前
小超发布了新的文献求助10
38秒前
39秒前
微笑不可发布了新的文献求助10
39秒前
39秒前
42秒前
ywwsnowboy发布了新的文献求助200
43秒前
LWJ发布了新的文献求助30
43秒前
高大鹅完成签到,获得积分20
43秒前
XZN发布了新的文献求助10
44秒前
贝肯尼关注了科研通微信公众号
44秒前
ZiyueNiu完成签到,获得积分10
44秒前
刻苦晓兰发布了新的文献求助20
46秒前
高分求助中
Licensing Deals in Pharmaceuticals 2019-2024 3000
Cognitive Paradigms in Knowledge Organisation 2000
Mantiden: Faszinierende Lauerjäger Faszinierende Lauerjäger Heßler, Claudia, Rud 1000
PraxisRatgeber: Mantiden: Faszinierende Lauerjäger 1000
Natural History of Mantodea 螳螂的自然史 1000
A Photographic Guide to Mantis of China 常见螳螂野外识别手册 800
How Maoism Was Made: Reconstructing China, 1949-1965 800
热门求助领域 (近24小时)
化学 医学 材料科学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 量子力学 冶金 电极
热门帖子
关注 科研通微信公众号,转发送积分 3321819
求助须知:如何正确求助?哪些是违规求助? 2953110
关于积分的说明 8564033
捐赠科研通 2630614
什么是DOI,文献DOI怎么找? 1439256
科研通“疑难数据库(出版商)”最低求助积分说明 667057
邀请新用户注册赠送积分活动 653495