Composed Image Retrieval using Contrastive Learning and Task-oriented CLIP-based Features

计算机科学 任务(项目管理) 人工智能 编码(集合论) 图像(数学) 编码器 图像检索 情报检索 自然语言处理 模式识别(心理学) 机器学习 操作系统 经济 集合(抽象数据类型) 管理 程序设计语言
作者
Alberto Baldrati,Marco Bertini,Tiberio Uricchio,Alberto Del Bimbo
出处
期刊:ACM Transactions on Multimedia Computing, Communications, and Applications [Association for Computing Machinery]
卷期号:20 (3): 1-24 被引量:5
标识
DOI:10.1145/3617597
摘要

Given a query composed of a reference image and a relative caption, the Composed Image Retrieval goal is to retrieve images visually similar to the reference one that integrates the modifications expressed by the caption. Given that recent research has demonstrated the efficacy of large-scale vision and language pre-trained (VLP) models in various tasks, we rely on features from the OpenAI CLIP model to tackle the considered task. We initially perform a task-oriented fine-tuning of both CLIP encoders using the element-wise sum of visual and textual features. Then, in the second stage, we train a Combiner network that learns to combine the image-text features integrating the bimodal information and providing combined features used to perform the retrieval. We use contrastive learning in both stages of training. Starting from the bare CLIP features as a baseline, experimental results show that the task-oriented fine-tuning and the carefully crafted Combiner network are highly effective and outperform more complex state-of-the-art approaches on FashionIQ and CIRR, two popular and challenging datasets for composed image retrieval. Code and pre-trained models are available at https://github.com/ABaldrati/CLIP4Cir .
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
思源应助研友_8DAv0L采纳,获得10
1秒前
顺利的觅云完成签到,获得积分10
1秒前
1秒前
11111完成签到,获得积分20
2秒前
tingting372给tingting372的求助进行了留言
4秒前
4秒前
yx_cheng应助ygx采纳,获得10
6秒前
晨青发布了新的文献求助10
6秒前
jerry完成签到,获得积分10
7秒前
研友_8DAv0L完成签到,获得积分20
7秒前
李雨珍应助雪山飞龙采纳,获得10
8秒前
zhengxy2002关注了科研通微信公众号
8秒前
12秒前
善学以致用应助圆你心安采纳,获得10
12秒前
黄黄完成签到,获得积分0
13秒前
瑩1223完成签到 ,获得积分20
15秒前
晨青完成签到,获得积分10
17秒前
19秒前
谈笑间完成签到,获得积分10
20秒前
cc完成签到,获得积分20
22秒前
一轮太阳和幻想完成签到,获得积分10
22秒前
犹豫的夏旋完成签到 ,获得积分10
24秒前
24秒前
脑洞疼应助Eternitymaria采纳,获得10
25秒前
25秒前
qq发布了新的文献求助10
27秒前
27秒前
oboy完成签到,获得积分10
29秒前
Hello应助Elaine采纳,获得10
29秒前
香蕉觅云应助shinn采纳,获得10
29秒前
6666发布了新的文献求助10
30秒前
西西弗完成签到 ,获得积分10
30秒前
欣喜的香彤完成签到,获得积分10
32秒前
li发布了新的文献求助10
32秒前
37秒前
黄玉珠发布了新的文献求助10
38秒前
39秒前
Eternitymaria发布了新的文献求助10
40秒前
41秒前
果果发布了新的文献求助30
44秒前
高分求助中
A new approach to the extrapolation of accelerated life test data 1000
Cognitive Neuroscience: The Biology of the Mind 1000
Technical Brochure TB 814: LPIT applications in HV gas insulated switchgear 1000
Immigrant Incorporation in East Asian Democracies 600
Nucleophilic substitution in azasydnone-modified dinitroanisoles 500
不知道标题是什么 500
A Preliminary Study on Correlation Between Independent Components of Facial Thermal Images and Subjective Assessment of Chronic Stress 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 冶金 细胞生物学 免疫学
热门帖子
关注 科研通微信公众号,转发送积分 3967409
求助须知:如何正确求助?哪些是违规求助? 3512686
关于积分的说明 11164710
捐赠科研通 3247680
什么是DOI,文献DOI怎么找? 1793964
邀请新用户注册赠送积分活动 874785
科研通“疑难数据库(出版商)”最低求助积分说明 804498