Zero-shot urban function inference with street view images through prompting a pretrained vision-language model

弹丸 功能(生物学) 推论 零(语言学) 计算机科学 地理 人工智能 计算机视觉 地图学 语言学 进化生物学 生物 哲学 有机化学 化学
作者
Weiming Huang,Jing Wang,Gao Cong
出处
期刊:International Journal of Geographical Information Science [Informa]
卷期号:38 (7): 1414-1442 被引量:13
标识
DOI:10.1080/13658816.2024.2347322
摘要

Inferring urban functions using street view images (SVIs) has gained tremendous momentum. The recent prosperity of large-scale vision-language pretrained models sheds light on addressing some long-standing challenges in this regard, for example, heavy reliance on labeled samples and computing resources. In this paper, we present a novel prompting framework for enabling the pretrained vision-language model CLIP to effectively infer fine-grained urban functions with SVIs in a zero-shot manner, that is, without labeled samples and model training. The prompting framework UrbanCLIP comprises an urban taxonomy and several urban function prompt templates, in order to (1) bridge the abstract urban function categories and concrete urban object types that can be readily understood by CLIP, and (2) mitigate the interference in SVIs, for example, street-side trees and vehicles. We conduct extensive experiments to verify the effectiveness of UrbanCLIP. The results indicate that the zero-shot UrbanCLIP largely surpasses several competitive supervised baselines, e.g. a fine-tuned ResNet, and its advantages become more prominent in cross-city transfer tests. In addition, UrbanCLIP's zero-shot performance is considerably better than the vanilla CLIP. Overall, UrbanCLIP is a simple yet effective framework for urban function inference, and showcases the potential of foundation models for geospatial applications.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
2秒前
hh发布了新的文献求助10
2秒前
Zo完成签到,获得积分10
2秒前
17发布了新的文献求助10
3秒前
仔仔完成签到 ,获得积分10
5秒前
咕噜噜完成签到 ,获得积分10
5秒前
6秒前
6秒前
醋灯笼发布了新的文献求助10
7秒前
7秒前
不知名人士完成签到 ,获得积分10
7秒前
小壳儿完成签到 ,获得积分10
9秒前
LiuXinping完成签到,获得积分10
9秒前
睡好觉吃好饭完成签到,获得积分10
9秒前
LIB完成签到,获得积分10
10秒前
10秒前
怕黑灭龙完成签到,获得积分10
11秒前
活泼大侠发布了新的文献求助10
13秒前
TaiLongYang完成签到,获得积分10
14秒前
loverdose完成签到,获得积分10
14秒前
呆萌听兰发布了新的文献求助10
15秒前
15秒前
科研通AI6.2应助研酒生采纳,获得10
16秒前
16秒前
科研通AI6.2应助WY采纳,获得10
16秒前
实验一定顺完成签到,获得积分10
17秒前
zwq完成签到,获得积分10
17秒前
深情安青应助爸爸的伞采纳,获得10
18秒前
18秒前
18秒前
hey完成签到,获得积分10
19秒前
xiaobai发布了新的文献求助10
19秒前
21秒前
科研通AI6.1应助hh采纳,获得10
21秒前
云游的莫冷完成签到,获得积分10
21秒前
彭于晏应助horry采纳,获得10
21秒前
hey发布了新的文献求助10
21秒前
朴素的梦岚完成签到,获得积分10
22秒前
结实大白发布了新的文献求助10
22秒前
充电宝应助乐观采纳,获得10
23秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Modern Epidemiology, Fourth Edition 5000
Digital Twins of Advanced Materials Processing 2000
Weaponeering, Fourth Edition – Two Volume SET 2000
Polymorphism and polytypism in crystals 1000
Signals, Systems, and Signal Processing 610
Discrete-Time Signals and Systems 610
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 纳米技术 有机化学 物理 生物化学 化学工程 计算机科学 复合材料 内科学 催化作用 光电子学 物理化学 电极 冶金 遗传学 细胞生物学
热门帖子
关注 科研通微信公众号,转发送积分 6023452
求助须知:如何正确求助?哪些是违规求助? 7650975
关于积分的说明 16173207
捐赠科研通 5171995
什么是DOI,文献DOI怎么找? 2767346
邀请新用户注册赠送积分活动 1750690
关于科研通互助平台的介绍 1637238