Zero-shot urban function inference with street view images through prompting a pretrained vision-language model

弹丸 功能(生物学) 推论 零(语言学) 计算机科学 地理 人工智能 计算机视觉 地图学 语言学 化学 哲学 有机化学 进化生物学 生物
作者
Weiming Huang,Jing Wang,Gao Cong
出处
期刊:International Journal of Geographical Information Science [Informa]
卷期号:38 (7): 1414-1442 被引量:3
标识
DOI:10.1080/13658816.2024.2347322
摘要

Inferring urban functions using street view images (SVIs) has gained tremendous momentum. The recent prosperity of large-scale vision-language pretrained models sheds light on addressing some long-standing challenges in this regard, for example, heavy reliance on labeled samples and computing resources. In this paper, we present a novel prompting framework for enabling the pretrained vision-language model CLIP to effectively infer fine-grained urban functions with SVIs in a zero-shot manner, that is, without labeled samples and model training. The prompting framework UrbanCLIP comprises an urban taxonomy and several urban function prompt templates, in order to (1) bridge the abstract urban function categories and concrete urban object types that can be readily understood by CLIP, and (2) mitigate the interference in SVIs, for example, street-side trees and vehicles. We conduct extensive experiments to verify the effectiveness of UrbanCLIP. The results indicate that the zero-shot UrbanCLIP largely surpasses several competitive supervised baselines, e.g. a fine-tuned ResNet, and its advantages become more prominent in cross-city transfer tests. In addition, UrbanCLIP's zero-shot performance is considerably better than the vanilla CLIP. Overall, UrbanCLIP is a simple yet effective framework for urban function inference, and showcases the potential of foundation models for geospatial applications.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
科研通AI2S应助文静三颜采纳,获得10
1秒前
yixiao发布了新的文献求助10
1秒前
康康完成签到,获得积分10
5秒前
阿利呀完成签到,获得积分10
5秒前
耍酷依玉发布了新的文献求助10
6秒前
乐乐应助科研通管家采纳,获得10
6秒前
小二郎应助科研通管家采纳,获得10
6秒前
SciGPT应助科研通管家采纳,获得10
6秒前
cctv18应助科研通管家采纳,获得10
6秒前
充电宝应助科研通管家采纳,获得10
7秒前
小二郎应助科研通管家采纳,获得10
7秒前
科研菜鸟完成签到,获得积分10
7秒前
7秒前
CodeCraft应助科研通管家采纳,获得10
7秒前
我是老大应助科研通管家采纳,获得10
7秒前
w_sea应助科研通管家采纳,获得10
7秒前
yixiao完成签到,获得积分10
7秒前
9秒前
不语完成签到,获得积分10
9秒前
11秒前
任性的天空完成签到,获得积分10
11秒前
传奇3应助Charles采纳,获得10
12秒前
LINDA完成签到,获得积分10
13秒前
13秒前
善学以致用应助vcfvc采纳,获得10
13秒前
13秒前
14秒前
hhh发布了新的文献求助10
14秒前
称心绮发布了新的文献求助30
16秒前
赘婿应助喜悦的月光采纳,获得10
17秒前
无花果应助碧蓝板栗采纳,获得20
17秒前
dm11发布了新的文献求助10
17秒前
17秒前
Rainna发布了新的文献求助10
18秒前
酷波er应助LINDA采纳,获得10
19秒前
20秒前
阿蒙完成签到 ,获得积分10
21秒前
oath发布了新的文献求助10
21秒前
干净的烧鹅完成签到,获得积分10
21秒前
21秒前
高分求助中
Mantiden: Faszinierende Lauerjäger Faszinierende Lauerjäger Heßler, Claudia, Rud 1000
PraxisRatgeber: Mantiden: Faszinierende Lauerjäger 1000
Natural History of Mantodea 螳螂的自然史 1000
A Photographic Guide to Mantis of China 常见螳螂野外识别手册 800
Autoregulatory progressive resistance exercise: linear versus a velocity-based flexible model 500
Spatial Political Economy: Uneven Development and the Production of Nature in Chile 400
Research on managing groups and teams 300
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 物理化学 催化作用 细胞生物学 免疫学 冶金
热门帖子
关注 科研通微信公众号,转发送积分 3330040
求助须知:如何正确求助?哪些是违规求助? 2959654
关于积分的说明 8596227
捐赠科研通 2638022
什么是DOI,文献DOI怎么找? 1444115
科研通“疑难数据库(出版商)”最低求助积分说明 668935
邀请新用户注册赠送积分活动 656517