Depth-Wise Convolutions in Vision Transformers for Efficient Training on Small Datasets

变压器 培训(气象学) 计算机科学 人工智能 计算机视觉 模式识别(心理学) 工程类 地理 电气工程 电压 气象学
作者
Tianxiao Zhang,Wenju Xu,Bo Luo,Guanghui Wang
出处
期刊:Cornell University - arXiv
标识
DOI:10.48550/arxiv.2407.19394
摘要

The Vision Transformer (ViT) leverages the Transformer's encoder to capture global information by dividing images into patches and achieves superior performance across various computer vision tasks. However, the self-attention mechanism of ViT captures the global context from the outset, overlooking the inherent relationships between neighboring pixels in images or videos. Transformers mainly focus on global information while ignoring the fine-grained local details. Consequently, ViT lacks inductive bias during image or video dataset training. In contrast, convolutional neural networks (CNNs), with their reliance on local filters, possess an inherent inductive bias, making them more efficient and quicker to converge than ViT with less data. In this paper, we present a lightweight Depth-Wise Convolution module as a shortcut in ViT models, bypassing entire Transformer blocks to ensure the models capture both local and global information with minimal overhead. Additionally, we introduce two architecture variants, allowing the Depth-Wise Convolution modules to be applied to multiple Transformer blocks for parameter savings, and incorporating independent parallel Depth-Wise Convolution modules with different kernels to enhance the acquisition of local information. The proposed approach significantly boosts the performance of ViT models on image classification, object detection and instance segmentation by a large margin, especially on small datasets, as evaluated on CIFAR-10, CIFAR-100, Tiny-ImageNet and ImageNet for image classification, and COCO for object detection and instance segmentation. The source code can be accessed at https://github.com/ZTX-100/Efficient_ViT_with_DW.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
2秒前
郝宝真发布了新的文献求助10
3秒前
安逸1发布了新的文献求助10
5秒前
LYY完成签到,获得积分10
7秒前
亮仔完成签到,获得积分10
12秒前
13秒前
内向的小凡完成签到,获得积分10
13秒前
半夏完成签到,获得积分10
14秒前
14秒前
15秒前
安逸1发布了新的文献求助10
17秒前
墨倾池发布了新的文献求助10
17秒前
缥缈的芷卉完成签到,获得积分20
17秒前
向雅完成签到,获得积分10
19秒前
GK发布了新的文献求助10
19秒前
感性的夜玉完成签到,获得积分10
21秒前
酷波er应助安逸1采纳,获得10
25秒前
26秒前
胖橘梨花逻辑猫完成签到 ,获得积分10
30秒前
laura完成签到,获得积分10
31秒前
笨鸟一直飞完成签到,获得积分10
32秒前
33秒前
赘婿应助科研通管家采纳,获得30
33秒前
33秒前
ding应助科研通管家采纳,获得10
33秒前
星辰大海应助科研通管家采纳,获得10
33秒前
李健应助科研通管家采纳,获得10
33秒前
Lucas应助科研通管家采纳,获得10
34秒前
111发布了新的文献求助10
37秒前
善学以致用应助GK采纳,获得10
39秒前
39秒前
42秒前
淡然的衣发布了新的文献求助20
43秒前
坚强白玉完成签到,获得积分10
43秒前
安逸1发布了新的文献求助10
45秒前
luo完成签到,获得积分20
47秒前
48秒前
ssss完成签到,获得积分10
49秒前
Akim应助吴小苏采纳,获得10
50秒前
8848k纯帅完成签到,获得积分10
50秒前
高分求助中
Becoming: An Introduction to Jung's Concept of Individuation 600
Ore genesis in the Zambian Copperbelt with particular reference to the northern sector of the Chambishi basin 500
A new species of Coccus (Homoptera: Coccoidea) from Malawi 500
A new species of Velataspis (Hemiptera Coccoidea Diaspididae) from tea in Assam 500
PraxisRatgeber: Mantiden: Faszinierende Lauerjäger 500
Die Gottesanbeterin: Mantis religiosa: 656 400
Mantiden: Faszinierende Lauerjäger Faszinierende Lauerjäger 400
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 催化作用 物理化学 免疫学 量子力学 细胞生物学
热门帖子
关注 科研通微信公众号,转发送积分 3165460
求助须知:如何正确求助?哪些是违规求助? 2816530
关于积分的说明 7913032
捐赠科研通 2476092
什么是DOI,文献DOI怎么找? 1318663
科研通“疑难数据库(出版商)”最低求助积分说明 632179
版权声明 602388