Large Separable Kernel Attention: Rethinking the Large Kernel Attention design in CNN

计算机科学 核(代数) 人工智能 核方法 水准点(测量) 树核 稳健性(进化) 卷积神经网络 模式识别(心理学) 分布的核嵌入 支持向量机 数学 生物化学 化学 大地测量学 组合数学 基因 地理
作者
Kin Wai Lau,Lai-Man Po,Yasar Abbas Ur Rehman
出处
期刊:Expert Systems With Applications [Elsevier BV]
卷期号:236: 121352-121352 被引量:141
标识
DOI:10.1016/j.eswa.2023.121352
摘要

Visual Attention Networks (VAN) with Large Kernel Attention (LKA) modules have been shown to provide remarkable performance, that surpasses Vision Transformers (ViTs), on a range of vision-based tasks. However, the depth-wise convolutional layer in these LKA modules incurs a quadratic increase in the computational and memory footprints with increasing convolutional kernel size. To mitigate these problems and to enable the use of extremely large convolutional kernels in the attention modules of VAN, we propose a family of Large Separable Kernel Attention modules, termed LSKA. LSKA decomposes the 2D convolutional kernel of the depth-wise convolutional layer into cascaded horizontal and vertical 1-D kernels. In contrast to the standard LKA design, the proposed decomposition enables the direct use of the depth-wise convolutional layer with large kernels in the attention module, without requiring any extra blocks. We demonstrate that the proposed LSKA module in VAN can achieve comparable performance with the standard LKA module and incur lower computational complexity and memory footprints. We also find that the proposed LSKA design biases the VAN more toward the shape of the object than the texture with increasing kernel size. Additionally, we benchmark the robustness of the LKA and LSKA in VAN, ViTs, and the recent ConvNeXt on the five corrupted versions of the ImageNet dataset that are largely unexplored in the previous works. Our extensive experimental results show that the proposed LSKA module in VAN provides a significant reduction in computational complexity and memory footprints with increasing kernel size while outperforming ViTs, ConvNeXt, and providing similar performance compared to the LKA module in VAN on object recognition, object detection, semantic segmentation, and robustness tests.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
中大王发布了新的文献求助10
刚刚
大模型应助顺利的金晶采纳,获得10
2秒前
冷酷哥爱学习完成签到,获得积分20
3秒前
如意的尔蝶完成签到,获得积分10
3秒前
量子星尘发布了新的文献求助10
3秒前
幽壑之潜蛟完成签到,获得积分0
4秒前
4秒前
思源应助生动路人采纳,获得10
4秒前
5秒前
6秒前
abc123完成签到,获得积分10
7秒前
8秒前
惜名发布了新的文献求助20
9秒前
科研通AI5应助自由的西牛采纳,获得10
9秒前
量子星尘发布了新的文献求助10
11秒前
Jerry完成签到,获得积分10
11秒前
是榤啊发布了新的文献求助10
12秒前
12秒前
科研通AI5应助淡然的大碗采纳,获得10
12秒前
CipherSage应助怕孤独的傲柏采纳,获得10
12秒前
12秒前
poyo发布了新的文献求助10
12秒前
15秒前
灵巧代柔完成签到,获得积分10
15秒前
李健应助正直的西牛采纳,获得10
16秒前
16秒前
16秒前
keyan完成签到 ,获得积分10
18秒前
量子星尘发布了新的文献求助10
18秒前
xin完成签到 ,获得积分10
19秒前
zzy发布了新的文献求助10
19秒前
Orange应助喜悦香萱采纳,获得10
21秒前
大鸡腿发布了新的文献求助10
21秒前
23秒前
hehehe完成签到,获得积分10
24秒前
香蕉觅云应助是榤啊采纳,获得10
26秒前
26秒前
27秒前
惜名发布了新的文献求助10
28秒前
量子星尘发布了新的文献求助10
28秒前
高分求助中
Production Logging: Theoretical and Interpretive Elements 2700
Neuromuscular and Electrodiagnostic Medicine Board Review 1000
Statistical Methods for the Social Sciences, Global Edition, 6th edition 600
こんなに痛いのにどうして「なんでもない」と医者にいわれてしまうのでしょうか 510
Walter Gilbert: Selected Works 500
An Annotated Checklist of Dinosaur Species by Continent 500
岡本唐貴自伝的回想画集 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3659929
求助须知:如何正确求助?哪些是违规求助? 3221325
关于积分的说明 9739851
捐赠科研通 2930724
什么是DOI,文献DOI怎么找? 1604598
邀请新用户注册赠送积分活动 757316
科研通“疑难数据库(出版商)”最低求助积分说明 734376