Shooting condition insensitive unmanned aerial vehicle object detection

计算机科学 嵌入 人工智能 编码器 计算机视觉 目标检测 无人机 探测器 自编码 鉴别器 领域(数学分析) 钥匙(锁) 特征(语言学) 不变(物理) 特征学习 深度学习 模式识别(心理学) 电信 数学分析 语言学 哲学 物理 数学 计算机安全 生物 数学物理 遗传学 操作系统
作者
Jingfan Liu,Jingjing Cui,Mao Ye,Xiatian Zhu,Song Tang
出处
期刊:Expert Systems With Applications [Elsevier]
卷期号:246: 123221-123221
标识
DOI:10.1016/j.eswa.2024.123221
摘要

The increasing use of unmanned aerial vehicle (UAV) devices in diverse fields such as agriculture, surveillance, and aerial photography has led to a significant demand for intelligent object detection. The key is in dealing with unconstrained shooting condition variations (e.g., weather, view, altitude). Previous data augmentation or adversarial learning based methods try to extract shooting condition invariant features, but they are constrained by the large number of combinations of different shooting conditions. To address this limitation, in this work we introduce a novel Language Guided UAV Detection Network Training Method (LGNet), capable of leveraging pre-trained multi-modal representations (e.g., CLIP) as learning structure reference, and as a model-agnostic strategy that can be applied in various detection models. The key idea is to remove language-described domain-specific features from the visual-language feature space, enhancing tolerance to variations in shooting conditions. Concretely, we fine-tune text prompt embedding about shooting condition and feed the fine-tuned text prompt embedding into CLIP-text encoder to obtain more accurate domain-specific features. By aligning the features from the detector backbone with those of the CLIP image encoder, we situate features within a visual-language space, while staying away from language-encoded domain-specific features to be domain-invariant. Extensive experiments demonstrate that LGNet, as a generic training plug-in, boosts the state-of-the-art performance on various base detectors. Specifically, it achieves an increase in the range of 0.9–1.7% in Average Precision (AP) on the UAVDT dataset and 1.0-2.4% on the VisDrone dataset, respectively.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
1秒前
豆子应助Doran_luffy采纳,获得10
1秒前
2秒前
山水之乐发布了新的文献求助10
2秒前
Aria_chao发布了新的文献求助30
2秒前
在水一方应助张小马采纳,获得10
3秒前
3秒前
研友_7ZebY8完成签到,获得积分10
4秒前
舟舟发布了新的文献求助10
4秒前
羊觅夏发布了新的文献求助10
4秒前
zhishi完成签到,获得积分10
5秒前
7秒前
Aria_chao完成签到,获得积分10
8秒前
大模型应助feiying采纳,获得10
10秒前
科研通AI2S应助一一采纳,获得10
10秒前
Lucas应助阿呆采纳,获得10
11秒前
情怀应助羊觅夏采纳,获得10
11秒前
丘比特应助羊觅夏采纳,获得10
11秒前
明杰发布了新的文献求助10
13秒前
舟舟完成签到,获得积分10
15秒前
超级大聪明完成签到,获得积分10
18秒前
18秒前
跳跃的寻菱完成签到,获得积分10
20秒前
Joy完成签到,获得积分10
23秒前
23秒前
llyric完成签到,获得积分10
24秒前
zhishi发布了新的文献求助10
28秒前
入我梦的般若完成签到,获得积分10
30秒前
xiaoyudianddd发布了新的文献求助10
31秒前
33秒前
38秒前
zhq发布了新的文献求助10
39秒前
华仔应助xiaoyudianddd采纳,获得10
39秒前
slokni完成签到,获得积分20
39秒前
39秒前
向日葵完成签到,获得积分10
40秒前
41秒前
41秒前
李健的小迷弟应助boshi采纳,获得10
42秒前
43秒前
高分求助中
Handbook of Fuel Cells, 6 Volume Set 1666
求助这个网站里的问题集 1000
Floxuridine; Third Edition 1000
Tracking and Data Fusion: A Handbook of Algorithms 1000
Sustainable Land Management: Strategies to Cope with the Marginalisation of Agriculture 800
Neuromorphic Circuits for Nanoscale Devices 501
消化器内視鏡関連の偶発症に関する第7回全国調査報告2019〜2021年までの3年間 500
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 生物化学 内科学 物理 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 催化作用 物理化学 免疫学 冶金 细胞生物学
热门帖子
关注 科研通微信公众号,转发送积分 2863106
求助须知:如何正确求助?哪些是违规求助? 2468837
关于积分的说明 6695134
捐赠科研通 2159616
什么是DOI,文献DOI怎么找? 1147144
版权声明 585212
科研通“疑难数据库(出版商)”最低求助积分说明 563681