A Reconfigurable Floating-Point Division and Square Root Architecture for High-Precision Softmax

Softmax函数 管道(软件) 师(数学) 计算机科学 还原(数学) 浮点型 减法器 平方根 CMOS芯片 嵌入式系统 计算机硬件 电子工程 工程类 加法器 算法 数学 算术 深度学习 人工智能 几何学 程序设计语言
作者
Xiwei Fang,Yuhan Wang,Lei Chen,Fengwei An
出处
期刊:IEEE Transactions on Circuits and Systems I-regular Papers [Institute of Electrical and Electronics Engineers]
卷期号:: 1-14
标识
DOI:10.1109/tcsi.2024.3524307
摘要

With the advancement of deep learning models, the Softmax function with self-attention has become pervasive in everyday applications. As components of the Softmax function and its inputs, both division and square root operations impact its accuracy. However, these two non-linear operations bring significant area and power consumption for hardware implementation. To address these challenges, this paper proposes a reconfigurable floating-point division and square root (FDSR) architecture that achieves low resource consumption and high accuracy for general-purpose computation. The FDSR enhances the traditional non-restoring algorithm by using shift-registers and optimizing the leading-one detection and shift operations, reducing hardware resource usage while maintaining high accuracy (0.5 ULP). In the mantissa calculation, the division can be converted to a square root operation by simply switching the input to the subtractor through multiplexers. Additionally, a triple-mode reconfigurable iteration unit is introduced, featuring a multi-layer variable pipeline architecture to improve adaptability for different applications. By redesigning the pipeline depth and reusing logical units, the FDSR effectively addresses the issue of lengthy iteration cycles in the non-restoring method. Implementation results using 40nm CMOS technology demonstrate that the proposed design achieves a 76.49% power reduction and a 14.69% area reduction for floating-point division compared to Synopsys Design Ware and an 88.05% power reduction and a 90.57% area reduction for floating-point square root. With 28 nm CMOS technology, the FDSR reduces power consumption by 91.55% and reduces area by 64.39% for floating-point division compared to Synopsys Design Ware. On the FPGA platform, the FDSR significantly reduces hardware resource consumption, achieving an 85.23% reduction for floating-point division and 87.81% for floating-point square root, outperforming state-of-the-art designs.

科研通智能强力驱动
Strongly Powered by AbleSci AI

祝大家在新的一年里科研腾飞
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
高贵的裘完成签到 ,获得积分10
2秒前
YJ完成签到,获得积分10
8秒前
大橙子完成签到,获得积分10
8秒前
uwasa完成签到,获得积分10
11秒前
共享精神应助忐忑的大米采纳,获得10
14秒前
榨汁机完成签到,获得积分10
14秒前
小正完成签到,获得积分10
14秒前
FXT完成签到 ,获得积分10
24秒前
忐忑的大米完成签到,获得积分20
28秒前
zz完成签到,获得积分10
32秒前
35秒前
cadcae发布了新的文献求助200
35秒前
知行合一完成签到 ,获得积分10
37秒前
小星云发布了新的文献求助10
39秒前
整齐泥猴桃完成签到 ,获得积分10
41秒前
科研小狗完成签到,获得积分10
41秒前
41秒前
玲丫头发布了新的文献求助30
47秒前
斯文败类应助薛得豪采纳,获得10
48秒前
WongGingYong发布了新的文献求助30
48秒前
petrichor应助ccalvintan采纳,获得10
54秒前
WongGingYong完成签到,获得积分10
55秒前
56秒前
vision0000完成签到,获得积分10
57秒前
59秒前
小二郎应助小星云采纳,获得10
1分钟前
zm完成签到 ,获得积分10
1分钟前
薛得豪发布了新的文献求助10
1分钟前
可靠一桶完成签到,获得积分10
1分钟前
Hollen完成签到 ,获得积分10
1分钟前
ZengLY完成签到 ,获得积分10
1分钟前
成就书雪完成签到,获得积分10
1分钟前
华仔应助俭朴映阳采纳,获得10
1分钟前
cocolu应助榨汁机采纳,获得10
1分钟前
小星云完成签到,获得积分10
1分钟前
CX完成签到,获得积分10
1分钟前
1分钟前
无限飞丹发布了新的文献求助10
1分钟前
HalfGumps完成签到,获得积分10
1分钟前
豆浆来点蒜泥完成签到,获得积分10
1分钟前
高分求助中
Востребованный временем 2500
Production Logging: Theoretical and Interpretive Elements 2000
Agaricales of New Zealand 1: Pluteaceae - Entolomataceae 1500
Early Devonian echinoderms from Victoria (Rhombifera, Blastoidea and Ophiocistioidea) 1000
Mantiden: Faszinierende Lauerjäger Faszinierende Lauerjäger 1000
PraxisRatgeber: Mantiden: Faszinierende Lauerjäger 1000
Metal Additive Manufacturing for Propulsion Applications 600
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 物理化学 催化作用 细胞生物学 免疫学 冶金
热门帖子
关注 科研通微信公众号,转发送积分 3367752
求助须知:如何正确求助?哪些是违规求助? 2987150
关于积分的说明 8726172
捐赠科研通 2669724
什么是DOI,文献DOI怎么找? 1462446
科研通“疑难数据库(出版商)”最低求助积分说明 676839
邀请新用户注册赠送积分活动 668008