Zero-shot urban function inference with street view images through prompting a pretrained vision-language model

弹丸 功能(生物学) 推论 零(语言学) 计算机科学 地理 人工智能 计算机视觉 地图学 语言学 进化生物学 生物 哲学 有机化学 化学
作者
Weiming Huang,Jing jing Wang,Gao Cong
出处
期刊:International Journal of Geographical Information Science [Informa]
卷期号:: 1-29
标识
DOI:10.1080/13658816.2024.2347322
摘要

Inferring urban functions using street view images (SVIs) has gained tremendous momentum. The recent prosperity of large-scale vision-language pretrained models sheds light on addressing some long-standing challenges in this regard, for example, heavy reliance on labeled samples and computing resources. In this paper, we present a novel prompting framework for enabling the pretrained vision-language model CLIP to effectively infer fine-grained urban functions with SVIs in a zero-shot manner, that is, without labeled samples and model training. The prompting framework UrbanCLIP comprises an urban taxonomy and several urban function prompt templates, in order to (1) bridge the abstract urban function categories and concrete urban object types that can be readily understood by CLIP, and (2) mitigate the interference in SVIs, for example, street-side trees and vehicles. We conduct extensive experiments to verify the effectiveness of UrbanCLIP. The results indicate that the zero-shot UrbanCLIP largely surpasses several competitive supervised baselines, e.g. a fine-tuned ResNet, and its advantages become more prominent in cross-city transfer tests. In addition, UrbanCLIP's zero-shot performance is considerably better than the vanilla CLIP. Overall, UrbanCLIP is a simple yet effective framework for urban function inference, and showcases the potential of foundation models for geospatial applications.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
睿123456发布了新的文献求助10
3秒前
czqq发布了新的文献求助30
3秒前
科研通AI2S应助Lian采纳,获得10
6秒前
9秒前
冰糖葫卢完成签到,获得积分20
9秒前
langwang完成签到,获得积分10
9秒前
思源应助双马尾小男生采纳,获得10
10秒前
10秒前
10秒前
大力的乐曲完成签到,获得积分10
11秒前
一叶扁舟完成签到,获得积分10
13秒前
wanhe发布了新的文献求助10
14秒前
14秒前
boluoyou发布了新的文献求助10
15秒前
kk发布了新的文献求助10
16秒前
17秒前
寻道图强应助cgshao采纳,获得30
19秒前
FashionBoy应助Amir采纳,获得10
19秒前
GOTCHANGE发布了新的文献求助10
19秒前
稻草人完成签到 ,获得积分10
21秒前
科研通AI2S应助不安的冷荷采纳,获得10
24秒前
24秒前
万能图书馆应助boluoyou采纳,获得10
25秒前
kk完成签到,获得积分10
28秒前
听音说完成签到,获得积分20
30秒前
所所应助GOTCHANGE采纳,获得10
31秒前
程小小发布了新的文献求助10
32秒前
高级丹药师完成签到,获得积分10
37秒前
爱笑梦易应助过儿采纳,获得10
39秒前
cgshao完成签到,获得积分10
40秒前
搜集达人应助TTT采纳,获得10
40秒前
程小小完成签到,获得积分10
43秒前
43秒前
46秒前
46秒前
49秒前
秘密完成签到,获得积分10
53秒前
hyq008发布了新的文献求助10
55秒前
ephore应助anlikek采纳,获得20
57秒前
1分钟前
高分求助中
求助这个网站里的问题集 1000
Tracking and Data Fusion: A Handbook of Algorithms 1000
Models of Teaching(The 10th Edition,第10版!)《教学模式》(第10版!) 800
La décision juridictionnelle 800
Rechtsphilosophie und Rechtstheorie 800
Nonlocal Integral Equation Continuum Models: Nonstandard Symmetric Interaction Neighborhoods and Finite Element Discretizations 600
The risk of colorectal cancer in ulcerative colitis: a meta-analysis 500
热门求助领域 (近24小时)
化学 医学 材料科学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 物理化学 催化作用 免疫学 细胞生物学 电极
热门帖子
关注 科研通微信公众号,转发送积分 2875293
求助须知:如何正确求助?哪些是违规求助? 2486241
关于积分的说明 6732238
捐赠科研通 2169904
什么是DOI,文献DOI怎么找? 1152776
版权声明 585892
科研通“疑难数据库(出版商)”最低求助积分说明 565908