AGREE: Aligning Cross-Modal Entities for Image-Text Retrieval Upon Vision-Language Pre-trained Models

计算机科学 排名(信息检索) 情态动词 人工智能 图像(数学) 任务(项目管理) 自然语言处理 构造(python库) 图像检索 情报检索 模式 模式识别(心理学) 化学 管理 高分子化学 经济 程序设计语言 社会科学 社会学
作者
Xiaodan Wang,Lei Li,Zhixu Li,Xuwu Wang,Xiangru Zhu,Chengyu Wang,Jun Huang,Yanghua Xiao
标识
DOI:10.1145/3539597.3570481
摘要

Image-text retrieval is a challenging cross-modal task that arouses much attention. While the traditional methods cannot break down the barriers between different modalities, Vision-Language Pre-trained (VLP) models greatly improve image-text retrieval performance based on massive image-text pairs. Nonetheless, the VLP-based methods are still prone to produce retrieval results that cannot be cross-modal aligned with entities. Recent efforts try to fix this problem at the pre-training stage, which is not only expensive but also unpractical due to the unavailable of full datasets. In this paper, we novelly propose a lightweight and practical approach to align cross-modal entities for image-text retrieval upon VLP models only at the fine-tuning and re-ranking stages. We employ external knowledge and tools to construct extra fine-grained image-text pairs, and then emphasize cross-modal entity alignment through contrastive learning and entity-level mask modeling in fine-tuning. Besides, two re-ranking strategies are proposed, including one specially designed for zero-shot scenarios. Extensive experiments with several VLP models on multiple Chinese and English datasets show that our approach achieves state-of-the-art results in nearly all settings.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
wangjq完成签到,获得积分20
刚刚
桐桐应助漂亮恶天采纳,获得10
2秒前
3秒前
小资完成签到 ,获得积分10
5秒前
8秒前
9秒前
英姑应助胖虎啊采纳,获得10
9秒前
蓝天应助乐观的幻珊采纳,获得10
11秒前
11秒前
文静绮梅发布了新的文献求助10
11秒前
eric888应助蓝天采纳,获得200
12秒前
李悟尔发布了新的文献求助10
13秒前
14秒前
李健的小迷弟应助ruengyu采纳,获得10
16秒前
危嘉欣完成签到,获得积分10
16秒前
17秒前
CodeCraft应助杨灿采纳,获得10
19秒前
20秒前
危嘉欣发布了新的文献求助10
20秒前
21秒前
是我呀吼发布了新的文献求助10
22秒前
云淡风清完成签到 ,获得积分10
22秒前
22秒前
彪壮的桐完成签到 ,获得积分10
25秒前
尼莫发布了新的文献求助10
26秒前
贤惠的翰发布了新的文献求助10
26秒前
Z鑫鑫子完成签到,获得积分10
27秒前
胖虎啊发布了新的文献求助10
27秒前
洛泱完成签到 ,获得积分10
28秒前
29秒前
南枝完成签到,获得积分10
30秒前
32秒前
wanci应助贤惠的翰采纳,获得10
32秒前
32秒前
34秒前
czephyr完成签到,获得积分10
34秒前
陶醉发箍完成签到 ,获得积分10
36秒前
传奇3应助小y的芋圆丸子采纳,获得10
37秒前
37秒前
落后如柏发布了新的文献求助10
38秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
The Graphene Handbook (2019 Edition) 800
IEST-RP-CC018: Cleanroom Cleaning and Sanitization: Operating and Monitoring Procedures 600
Fundamentals of Pharmaceutical and Biologics Regulations: A Global Perspective, Second Edition 600
Rehabilitation of Long-Standing Groin Pain in Athletes: A Scoping Review of Exercise Content and Reporting 500
The Immune System (Fifth Edition) 500
久松真一著作集〈第5巻〉禅と芸術 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6583889
求助须知:如何正确求助?哪些是违规求助? 8358154
关于积分的说明 17899844
捐赠科研通 5724351
什么是DOI,文献DOI怎么找? 2948985
邀请新用户注册赠送积分活动 1924560
关于科研通互助平台的介绍 1809890