Search-Free Inference Acceleration for Sparse Convolutional Neural Networks

计算机科学 卷积神经网络 加速 推论 吞吐量 数据流 并行计算 带宽(计算) 卷积(计算机科学) 压缩传感 算法 理论计算机科学 人工智能 人工神经网络 电信 无线 计算机网络
作者
Bosheng Liu,Xiaoming Chen,Yinhe Han,Jigang Wu,Liang Chang,Peng Liu,Haobo Xu
出处
期刊:IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems [Institute of Electrical and Electronics Engineers]
卷期号:41 (7): 2156-2169 被引量:2
标识
DOI:10.1109/tcad.2021.3102191
摘要

Sparse convolution neural networks (CNNs) are promising in reducing both memory usage and computational complexity while still preserving high inference accuracy. State-of-the-art sparse CNN accelerators can deliver high throughput by skipping zero weights and/or activations. To operate on only nonzero weights and activations, sparse accelerators typically search pairs of nonzero weights and activations for multiplication-accumulation (MAC) operations. However, the conventional search operation results in a severe limitation in the processing element (PE) array scale because of the enormous demands of internal interconnection and memory bandwidth. In this article, we first provide a design principle to free the search process of sparse CNN accelerations. Specifically, the indexes of the static compressed weights access the dynamic activations directly to avoid the search process for MAC operations. We then develop two search-free inference accelerators, called Swan and Swan-flexible, for sparse CNN accelerations. Swan supports search-free sparse convolution accelerations for interconnection and bandwidth saving. Compared with Swan, Swan-flexible not only has the search-free capability but also comprises a configurable architecture for optimum throughput. We formulate a mathematical optimization problem by combining the configurable characterization with the compressive dataflow to optimize the overall throughput. Evaluations based on a place-and-route process show that the proposed designs, in a compact factor of 4096 PEs, achieve 1.5– $2.7\times $ higher speedup and 6.0– $13.6\times $ better energy efficiency than representative accelerator baselines with the same PE array scale.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
现实的大白完成签到 ,获得积分10
1秒前
ash完成签到 ,获得积分10
8秒前
LT完成签到 ,获得积分0
9秒前
9秒前
14秒前
woods发布了新的文献求助10
15秒前
可飞完成签到,获得积分10
24秒前
deadsea完成签到 ,获得积分10
28秒前
30秒前
畅快的谷秋完成签到 ,获得积分10
31秒前
31秒前
朱成豪发布了新的文献求助10
36秒前
Asoqiang应助朱成豪采纳,获得10
46秒前
Asoqiang应助朱成豪采纳,获得10
46秒前
科研狗完成签到 ,获得积分10
48秒前
Telomere完成签到 ,获得积分10
49秒前
49秒前
50秒前
嘟嘟噜发布了新的文献求助10
52秒前
53秒前
54秒前
舒适以松完成签到 ,获得积分10
54秒前
明理糖豆发布了新的文献求助10
58秒前
Lauren完成签到 ,获得积分10
1分钟前
充电宝应助嘟嘟噜采纳,获得10
1分钟前
赵勇完成签到 ,获得积分10
1分钟前
海阔天空完成签到,获得积分0
1分钟前
正直的松鼠完成签到 ,获得积分10
1分钟前
TTQ完成签到 ,获得积分10
1分钟前
小瓶盖完成签到 ,获得积分10
1分钟前
居里姐姐完成签到 ,获得积分10
1分钟前
lielizabeth完成签到 ,获得积分0
1分钟前
清秀不言完成签到 ,获得积分10
1分钟前
神外第一刀完成签到 ,获得积分10
1分钟前
阔达白筠完成签到 ,获得积分10
1分钟前
YJ完成签到,获得积分10
2分钟前
知行者完成签到 ,获得积分10
2分钟前
TG303完成签到,获得积分10
2分钟前
抠鼻公主完成签到 ,获得积分10
2分钟前
碧蓝的机器猫完成签到 ,获得积分10
2分钟前
高分求助中
Continuum Thermodynamics and Material Modelling 3000
Production Logging: Theoretical and Interpretive Elements 2700
Les Mantodea de Guyane Insecta, Polyneoptera 1000
Conference Record, IAS Annual Meeting 1977 820
England and the Discovery of America, 1481-1620 600
Teaching language in context (Third edition) by Derewianka, Beverly; Jones, Pauline 550
Typology of Conditional Constructions 500
热门求助领域 (近24小时)
化学 材料科学 生物 医学 工程类 有机化学 生物化学 物理 纳米技术 计算机科学 内科学 化学工程 复合材料 基因 遗传学 物理化学 催化作用 量子力学 光电子学 冶金
热门帖子
关注 科研通微信公众号,转发送积分 3585732
求助须知:如何正确求助?哪些是违规求助? 3154495
关于积分的说明 9501774
捐赠科研通 2857276
什么是DOI,文献DOI怎么找? 1570405
邀请新用户注册赠送积分活动 736186
科研通“疑难数据库(出版商)”最低求助积分说明 721575