ICLA Unit: Intra-Cluster Locality-Aware Unit to Reduce L2 Access and NoC Pressure in GPGPUs

计算机科学 隐藏物 地点 并行计算 库达 线程(计算) 延迟(音频) 计算机网络 操作系统 语言学 电信 哲学
作者
Siamak Biglari Ardabili,Gholamreza Zare Fatin
出处
期刊:Journal of Circuits, Systems, and Computers [World Scientific]
卷期号:: 2250015-2250015
标识
DOI:10.1142/s0218126622500153
摘要

As the number of streaming multiprocessors (SMs) in GPUs increases, in order to gain better performance, the reply network faces heavy traffic. This causes congestion on Network-on-Chip (NoC) routers and memory controller’s (MC) buffers. By taking advantage of cooperative thread arrays (CTAs) that are scheduled locally in clusters, there is a high probability of finding the same copy of data in other SM’s [Formula: see text] cache in the same cluster. In order to make this feasible, it is necessary for the SMs to have access to local [Formula: see text] cache of the neighboring SMs. There is a considerable congestion in NoC due to unique traffic pattern called many-to-few-to-many. Thanks to the reduced number of requests that is attained by our proposed Intra-Cluster Locality-Aware (ICLA) unit, this congested replying network traffic becomes many-to-many traffic pattern and the replied data goes through the less-utilized core-to-core communication that mitigates the NoC traffic. The proposed architecture in this paper has been evaluated using 15 different workloads from CUDA SDK, Rodinia, and ISPASS2009 benchmarks. The proposed ICLA unit has been modeled and simulated in the GPGPU-Sim. The results show about 23.79% (up to 49.82%) reduction in average network latency, 15.49% (up to 36.82%) reduction in average [Formula: see text] cache access, and 18.18% (up to 58.1%) average improvement in the instruction per cycle (IPC).
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
Zhao完成签到,获得积分10
3秒前
小蘑菇应助认真的弼采纳,获得10
3秒前
漂亮的忆文完成签到,获得积分10
4秒前
友好采蓝发布了新的文献求助30
6秒前
7秒前
Jimmy_King完成签到 ,获得积分10
10秒前
量子星尘发布了新的文献求助10
11秒前
14秒前
生动的煎蛋完成签到 ,获得积分10
14秒前
风中的丝袜完成签到,获得积分10
19秒前
Profeto应助824采纳,获得10
24秒前
叶子完成签到 ,获得积分10
27秒前
稳重母鸡完成签到 ,获得积分10
28秒前
认真的弼完成签到,获得积分10
29秒前
辛勤的泽洋完成签到 ,获得积分10
31秒前
笨笨山芙完成签到 ,获得积分10
39秒前
Mason完成签到,获得积分10
39秒前
allrubbish完成签到,获得积分10
41秒前
小海完成签到,获得积分10
45秒前
46秒前
方方完成签到 ,获得积分10
47秒前
小树完成签到 ,获得积分10
47秒前
黑发纳兹完成签到,获得积分10
48秒前
marc107完成签到,获得积分10
52秒前
深情安青应助何博采纳,获得10
53秒前
黑发纳兹发布了新的文献求助10
53秒前
研友_8Y26PL完成签到 ,获得积分10
53秒前
相南相北完成签到 ,获得积分10
54秒前
cm完成签到,获得积分10
55秒前
傻傻的磬完成签到 ,获得积分10
1分钟前
饱满烙完成签到 ,获得积分10
1分钟前
NexusExplorer应助黑发纳兹采纳,获得10
1分钟前
1分钟前
吱吱吱完成签到 ,获得积分10
1分钟前
明理问柳完成签到,获得积分10
1分钟前
量子星尘发布了新的文献求助30
1分钟前
落后十八发布了新的文献求助10
1分钟前
够了完成签到 ,获得积分10
1分钟前
wang完成签到,获得积分10
1分钟前
小田完成签到 ,获得积分10
1分钟前
高分求助中
【提示信息,请勿应助】关于scihub 10000
The Mother of All Tableaux: Order, Equivalence, and Geometry in the Large-scale Structure of Optimality Theory 3000
Social Research Methods (4th Edition) by Maggie Walter (2019) 2390
A new approach to the extrapolation of accelerated life test data 1000
北师大毕业论文 基于可调谐半导体激光吸收光谱技术泄漏气体检测系统的研究 390
Phylogenetic study of the order Polydesmida (Myriapoda: Diplopoda) 370
Robot-supported joining of reinforcement textiles with one-sided sewing heads 360
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 冶金 细胞生物学 免疫学
热门帖子
关注 科研通微信公众号,转发送积分 4008763
求助须知:如何正确求助?哪些是违规求助? 3548409
关于积分的说明 11298823
捐赠科研通 3283064
什么是DOI,文献DOI怎么找? 1810290
邀请新用户注册赠送积分活动 886000
科研通“疑难数据库(出版商)”最低求助积分说明 811220