Text-to-Image Vehicle Re-Identification: Multi-Scale Multi-View Cross-Modal Alignment Network and a Unified Benchmark

计算机科学 鉴定(生物学) 人工智能 水准点(测量) 情态动词 图像(数学) 集合(抽象数据类型) 秩(图论) 判决 比例(比率) 计算机视觉 模式识别(心理学) 机器学习 物理 组合数学 生物 量子力学 化学 植物 高分子化学 程序设计语言 地理 数学 大地测量学
作者
Leqi Ding,Lei Liu,Yan Huang,Chenglong Li,Cheng Zhang,Sheng Wang,Liang Wang
出处
期刊:IEEE Transactions on Intelligent Transportation Systems [Institute of Electrical and Electronics Engineers]
卷期号:25 (7): 7673-7686 被引量:3
标识
DOI:10.1109/tits.2023.3348599
摘要

Vehicle Re-IDentification (Re-ID) aims to retrieve the most similar images with a given query vehicle image from a set of images captured by non-overlapping cameras, and plays a crucial role in intelligent transportation systems and has made impressive advancements in recent years. In real-world scenarios, we can often acquire the text descriptions of target vehicle through witness accounts, and then manually search the image queries for vehicle Re-ID, which is time-consuming and labor-intensive. To solve this problem, this paper introduces a new fine-grained cross-modal retrieval task called text-to-image vehicle re-identification, which seeks to retrieve target vehicle images based on the given text descriptions. To bridge the significant gap between language and visual modalities, we propose a novel Multi-scale multi-view Cross-modal Alignment Network (MCANet). In particular, we incorporate view masks and multi-scale features to align image and text features in a progressive way. In addition, we design the Masked Bidirectional InfoNCE (MB-InfoNCE) loss to enhance the training stability and make the best use of negative samples. To provide an evaluation platform for text-to-image vehicle re-identification, we create a Text-to-Image Vehicle Re-Identification dataset (T2I VeRi), which contains 2465 image-text pairs from 776 vehicles with an average sentence length of 26.8 words. Extensive experiments conducted on T2I VeRi demonstrate MCANet outperforms the current state-of-art (SOTA) method by 2.2% in rank-1 accuracy.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
刚刚
1秒前
zkk完成签到,获得积分10
3秒前
cedricleonard完成签到,获得积分10
3秒前
3秒前
1111发布了新的文献求助10
3秒前
mouxq发布了新的文献求助10
4秒前
KlayPatrick完成签到,获得积分10
5秒前
笙声慢完成签到 ,获得积分20
7秒前
fangzhang发布了新的文献求助10
7秒前
8秒前
Shadehope发布了新的文献求助10
8秒前
QiQi完成签到,获得积分10
10秒前
李健应助潇潇雨歇采纳,获得10
10秒前
简单完成签到 ,获得积分10
10秒前
eso完成签到,获得积分10
11秒前
IchenNG完成签到,获得积分10
12秒前
13秒前
SKD发布了新的文献求助10
13秒前
14秒前
嗯哼应助真一松采纳,获得20
16秒前
QiQi发布了新的文献求助10
17秒前
隐形曼青应助luca采纳,获得10
17秒前
深情的嘉熙完成签到,获得积分10
19秒前
Ding发布了新的文献求助10
20秒前
拼搏书琴完成签到 ,获得积分10
21秒前
非蛋白呼吸商完成签到,获得积分10
23秒前
汉堡包应助费费采纳,获得100
25秒前
26秒前
qiu发布了新的文献求助10
27秒前
乌龟gogogo完成签到 ,获得积分10
28秒前
28秒前
乐乐应助twob采纳,获得30
29秒前
30秒前
31秒前
31秒前
HonamC发布了新的文献求助10
32秒前
2076692304发布了新的文献求助10
33秒前
研友_LOoomL发布了新的文献求助10
35秒前
Zbzb发布了新的文献求助10
35秒前
高分求助中
Rock-Forming Minerals, Volume 3C, Sheet Silicates: Clay Minerals 2000
The late Devonian Standard Conodont Zonation 2000
Nickel superalloy market size, share, growth, trends, and forecast 2023-2030 2000
The Lali Section: An Excellent Reference Section for Upper - Devonian in South China 1500
The Healthy Socialist Life in Maoist China 600
The Vladimirov Diaries [by Peter Vladimirov] 600
Data Structures and Algorithms in Java 500
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 催化作用 物理化学 免疫学 量子力学 细胞生物学
热门帖子
关注 科研通微信公众号,转发送积分 3268281
求助须知:如何正确求助?哪些是违规求助? 2907854
关于积分的说明 8343465
捐赠科研通 2578165
什么是DOI,文献DOI怎么找? 1401736
科研通“疑难数据库(出版商)”最低求助积分说明 655174
邀请新用户注册赠送积分活动 634291