Multimodal Disentanglement Variational AutoEncoders for Zero-Shot Cross-Modal Retrieval

计算机科学 嵌入 人工智能 模态(人机交互) 不变(物理) 生成语法 生成模型 模式识别(心理学) 机器学习 数学 数学物理
作者
Jialin Tian,Kai Wang,Xing Xu,Zuo Cao,Fumin Shen,Heng Tao Shen
标识
DOI:10.1145/3477495.3532028
摘要

Zero-Shot Cross-Modal Retrieval (ZS-CMR) has recently drawn increasing attention as it focuses on a practical retrieval scenario, i.e., the multimodal test set consists of unseen classes that are disjoint with seen classes in the training set. The recently proposed methods typically adopt the generative model as the main framework to learn a joint latent embedding space to alleviate the modality gap. Generally, these methods largely rely on auxiliary semantic embeddings for knowledge transfer across classes and unconsciously neglect the effect of the data reconstruction manner in the adopted generative model. To address this issue, we propose a novel ZS-CMR model termed Multimodal Disentanglement Variational AutoEncoders (MDVAE), which consists of two coupled disentanglement variational autoencoders (DVAEs) and a fusion-exchange VAE (FVAE). Specifically, DVAE is developed to disentangle the original representations of each modality into modality-invariant and modality-specific features. FVAE is designed to fuse and exchange information of multimodal data by the reconstruction and alignment process without pre-extracted semantic embeddings. Moreover, an advanced counter-intuitive cross-reconstruction scheme is further proposed to enhance the informativeness and generalizability of the modality-invariant features for more effective knowledge transfer. The comprehensive experiments on four image-text retrieval and two image-sketch retrieval datasets consistently demonstrate that our method establishes the new state-of-the-art performance.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
2秒前
wxx完成签到,获得积分10
4秒前
刘壮完成签到,获得积分10
7秒前
111发布了新的文献求助10
8秒前
劲爆巧克力完成签到,获得积分10
8秒前
fangmuyi完成签到,获得积分10
9秒前
山是山三十三完成签到 ,获得积分10
11秒前
贪吃的锅儿完成签到,获得积分10
11秒前
王彦秀完成签到,获得积分10
12秒前
149865完成签到,获得积分10
12秒前
科研通AI6.2应助余小胖采纳,获得10
13秒前
hyxxx完成签到,获得积分10
14秒前
向沛山完成签到 ,获得积分10
15秒前
Ulrica完成签到,获得积分10
15秒前
天天快乐应助Ada采纳,获得10
19秒前
顺利毕业应助Ada采纳,获得10
19秒前
我是老大应助Ada采纳,获得10
19秒前
科研通AI6.1应助Ada采纳,获得10
19秒前
RYK完成签到 ,获得积分10
20秒前
贾舒涵完成签到,获得积分10
22秒前
Gloria完成签到 ,获得积分10
23秒前
面壁的章北海完成签到,获得积分10
23秒前
科研狼完成签到,获得积分10
25秒前
楚天完成签到,获得积分10
25秒前
6S6完成签到,获得积分10
26秒前
单纯的蚂蚁完成签到,获得积分10
27秒前
29秒前
领导范儿应助Cold-Drink-Shop采纳,获得10
30秒前
闪闪的乐蕊完成签到,获得积分10
30秒前
小小完成签到,获得积分10
31秒前
燕儿完成签到 ,获得积分10
31秒前
hkh完成签到,获得积分10
31秒前
勤奋完成签到 ,获得积分10
32秒前
空间完成签到 ,获得积分10
33秒前
天天快乐应助贪吃的锅儿采纳,获得10
33秒前
哈哈完成签到 ,获得积分10
34秒前
Ada完成签到,获得积分10
35秒前
于佳卉完成签到,获得积分10
36秒前
沉默的婴完成签到 ,获得积分10
38秒前
r41r32完成签到 ,获得积分10
38秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Kinesiophobia : a new view of chronic pain behavior 3000
Les Mantodea de guyane 2500
Signals, Systems, and Signal Processing 510
Discrete-Time Signals and Systems 510
Brittle Fracture in Welded Ships 500
Lloyd's Register of Shipping's Approach to the Control of Incidents of Brittle Fracture in Ship Structures 500
热门求助领域 (近24小时)
化学 材料科学 生物 医学 工程类 计算机科学 有机化学 物理 生物化学 纳米技术 复合材料 内科学 化学工程 人工智能 催化作用 遗传学 数学 基因 量子力学 物理化学
热门帖子
关注 科研通微信公众号,转发送积分 5943357
求助须知:如何正确求助?哪些是违规求助? 7086109
关于积分的说明 15890086
捐赠科研通 5074443
什么是DOI,文献DOI怎么找? 2729434
邀请新用户注册赠送积分活动 1688862
关于科研通互助平台的介绍 1613965