Combine Early and Late Fusion Together: A Hybrid Fusion Framework for Image-Text Matching

计算机科学 匹配(统计) 人工智能 图像融合 情态动词 模式 模态(人机交互) 融合 图像(数学) 相似性(几何) 代表(政治) 方案(数学) 任务(项目管理) 模式识别(心理学) 传感器融合 自然语言处理 机器学习 计算机视觉 数学 工程类 社会学 哲学 数学分析 统计 化学 高分子化学 法学 系统工程 政治 语言学 社会科学 政治学
作者
Yifan Wang,Xing Xu,Wu Yu,Ruicong Xu,Zhiwei Cao,Heng Tao Shen
标识
DOI:10.1109/icme51207.2021.9428201
摘要

Image-text matching is a challenging task in cross-modal learning due to the discrepancy of data representation be-tween different modalities of images and texts. The main-stream methods adopt the late fusion to generate image-text similarity on encoded cross-modal features, and put effort to capture intra-modality associations with considerably high training cost. In this work, we propose to Combine Early and Late Fusion Together (CELFT), which is a universal hybrid fusion framework that can effectively overcome the above shortcomings of the late fusion scheme. In the pro-posed CELFT framework, the hybrid structure with early fusion and late fusion could facilitate the interaction between image and text modalities at early stage. Moreover, these two kinds of fusion strategies complement each other in capturing the inter-modal and intra-modal information, which ensure to learn more accurate image-text similarity. In the experiments, we choose four latest approaches based on the late fusion scheme as the base models, and integrate them with our CELFT framework. The results on two widely used image-text datasets MSCOCO and Flickr30K show that the matching performance of all base models is significantly improved with remarkably reduced training time.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
张小清发布了新的文献求助10
刚刚
大海风完成签到,获得积分10
1秒前
1秒前
可爱的函函应助小豆子采纳,获得10
2秒前
2秒前
4秒前
5秒前
大海风发布了新的文献求助10
7秒前
orixero应助晨曦采纳,获得10
8秒前
9秒前
黎行云发布了新的文献求助10
9秒前
12秒前
rosalieshi应助yzee采纳,获得30
14秒前
16秒前
沉默香芦发布了新的文献求助10
19秒前
高挑的幼翠完成签到,获得积分10
19秒前
20秒前
22秒前
摆渡人发布了新的文献求助10
26秒前
strickland完成签到,获得积分10
26秒前
yangkunmedical完成签到,获得积分10
28秒前
DamonChen发布了新的文献求助10
28秒前
汉堡包应助孙冉冉采纳,获得10
29秒前
30秒前
可爱的函函应助刘一帆采纳,获得10
30秒前
miuu完成签到,获得积分10
33秒前
YY完成签到,获得积分10
33秒前
姜茶发布了新的文献求助10
34秒前
科研通AI2S应助研友_Fan采纳,获得10
34秒前
34秒前
djdsg发布了新的文献求助10
35秒前
黎行云发布了新的文献求助10
35秒前
weiv发布了新的文献求助30
37秒前
任性的思远完成签到,获得积分10
38秒前
Hello应助不如一默采纳,获得10
38秒前
e746700020完成签到,获得积分10
39秒前
柠檬精翠翠完成签到,获得积分10
40秒前
41秒前
47秒前
沉默香芦完成签到,获得积分10
47秒前
高分求助中
LNG地下式貯槽指針(JGA指-107) 1000
LNG地上式貯槽指針 (JGA指 ; 108) 1000
Preparation and Characterization of Five Amino-Modified Hyper-Crosslinked Polymers and Performance Evaluation for Aged Transformer Oil Reclamation 700
Operative Techniques in Pediatric Orthopaedic Surgery 510
How Stories Change Us A Developmental Science of Stories from Fiction and Real Life 500
九经直音韵母研究 500
Full waveform acoustic data processing 500
热门求助领域 (近24小时)
化学 医学 材料科学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 物理化学 催化作用 免疫学 细胞生物学 电极
热门帖子
关注 科研通微信公众号,转发送积分 2932569
求助须知:如何正确求助?哪些是违规求助? 2586311
关于积分的说明 6970419
捐赠科研通 2233064
什么是DOI,文献DOI怎么找? 1186011
版权声明 589681
科研通“疑难数据库(出版商)”最低求助积分说明 580645