Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

变压器 计算机科学 分割 计算 人工智能 计算机视觉 算法 电压 工程类 电气工程
作者
Ze Liu,Yutong Lin,Yue Cao,Han Hu,Yixuan Wei,Zheng Zhang,Stephen Lin,Baining Guo
出处
期刊:Cornell University - arXiv 被引量:275
标识
DOI:10.48550/arxiv.2103.14030
摘要

This paper presents a new vision Transformer, called Swin Transformer, that capably serves as a general-purpose backbone for computer vision. Challenges in adapting Transformer from language to vision arise from differences between the two domains, such as large variations in the scale of visual entities and the high resolution of pixels in images compared to words in text. To address these differences, we propose a hierarchical Transformer whose representation is computed with \textbf{S}hifted \textbf{win}dows. The shifted windowing scheme brings greater efficiency by limiting self-attention computation to non-overlapping local windows while also allowing for cross-window connection. This hierarchical architecture has the flexibility to model at various scales and has linear computational complexity with respect to image size. These qualities of Swin Transformer make it compatible with a broad range of vision tasks, including image classification (87.3 top-1 accuracy on ImageNet-1K) and dense prediction tasks such as object detection (58.7 box AP and 51.1 mask AP on COCO test-dev) and semantic segmentation (53.5 mIoU on ADE20K val). Its performance surpasses the previous state-of-the-art by a large margin of +2.7 box AP and +2.6 mask AP on COCO, and +3.2 mIoU on ADE20K, demonstrating the potential of Transformer-based models as vision backbones. The hierarchical design and the shifted window approach also prove beneficial for all-MLP architectures. The code and models are publicly available at~\url{https://github.com/microsoft/Swin-Transformer}.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
没意思的意思完成签到,获得积分10
刚刚
可爱的冷霜完成签到,获得积分10
1秒前
1秒前
科目三应助hahaha采纳,获得10
1秒前
liviawong完成签到,获得积分10
1秒前
2秒前
aczqay完成签到,获得积分10
2秒前
着急的柔发布了新的文献求助10
3秒前
xziyou发布了新的文献求助10
4秒前
英俊的铭应助wangxiaoer采纳,获得10
5秒前
yixiu关注了科研通微信公众号
5秒前
Nathan完成签到,获得积分10
5秒前
fgh完成签到 ,获得积分10
5秒前
6秒前
Zx_1993应助刻苦以寒采纳,获得20
6秒前
浮游应助老八的嘴采纳,获得10
6秒前
听语说完成签到,获得积分10
7秒前
研友完成签到,获得积分20
7秒前
7秒前
zhu完成签到,获得积分10
7秒前
daixan89完成签到 ,获得积分10
9秒前
Ikkyu完成签到 ,获得积分10
9秒前
随便完成签到,获得积分10
9秒前
执着静竹完成签到,获得积分10
9秒前
糊涂的笑天完成签到 ,获得积分10
10秒前
小佟发布了新的文献求助10
10秒前
知己完成签到,获得积分10
10秒前
未来学术司马懿完成签到,获得积分0
10秒前
10秒前
fighting完成签到,获得积分10
10秒前
htt完成签到,获得积分10
11秒前
碧蓝紫山完成签到,获得积分10
11秒前
xziyou完成签到,获得积分20
11秒前
迹K完成签到,获得积分10
11秒前
爱科研的粥粥完成签到,获得积分10
12秒前
Ksharp10发布了新的文献求助10
12秒前
Jasper应助koko采纳,获得10
13秒前
彭于晏应助王宝宝采纳,获得10
13秒前
大胆人英完成签到,获得积分10
14秒前
迷路的天亦完成签到 ,获得积分10
14秒前
高分求助中
Encyclopedia of Quaternary Science Third edition 2025 12000
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
HIGH DYNAMIC RANGE CMOS IMAGE SENSORS FOR LOW LIGHT APPLICATIONS 1500
Constitutional and Administrative Law 1000
The Social Work Ethics Casebook: Cases and Commentary (revised 2nd ed.). Frederic G. Reamer 800
Holistic Discourse Analysis 600
Vertébrés continentaux du Crétacé supérieur de Provence (Sud-Est de la France) 600
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 生物化学 物理 纳米技术 计算机科学 内科学 化学工程 复合材料 物理化学 基因 遗传学 催化作用 冶金 量子力学 光电子学
热门帖子
关注 科研通微信公众号,转发送积分 5348166
求助须知:如何正确求助?哪些是违规求助? 4482370
关于积分的说明 13950463
捐赠科研通 4380997
什么是DOI,文献DOI怎么找? 2407174
邀请新用户注册赠送积分活动 1399774
关于科研通互助平台的介绍 1373012