FaST-GShare: Enabling Efficient Spatio-Temporal GPU Sharing in Serverless Computing for Deep Learning Inference

计算机科学 推论 深度学习 图形处理单元的通用计算 人工智能 计算机体系结构 并行计算 机器学习 计算机图形学(图像) 绘图
作者
Jianfeng Gu,Zhu Yi-chao,P. Wang,Mohak Chadha,Michael Gerndt
标识
DOI:10.1145/3605573.3605638
摘要

Serverless computing (FaaS) has been extensively utilized for deep learning (DL) inference due to the ease of deployment and payper-use benefits.However, existing FaaS platforms utilize GPUs in a coarse manner for DL inferences, without taking into account spatio-temporal resource multiplexing and isolation, which results in severe GPU under-utilization, high usage expenses, and SLO (Service Level Objectives) violation.There is an imperative need to enable an efficient and SLO-aware GPU-sharing mechanism in serverless computing to facilitate cost-effective DL inferences.In this paper, we propose FaST-GShare, an efficient FaaS-oriented Spatio-Temporal GPU Sharing architecture for deep learning inferences.In the architecture, we introduce the FaST-Manager to limit and isolate spatio-temporal resources for GPU multiplexing.In order to realize function performance, the automatic and flexible FaST-Profiler is proposed to profile function throughput under various resource allocations.Based on the profiling data and the isolation mechanism, we introduce the FaST-Scheduler with heuristic auto-scaling and efficient resource allocation to guarantee function SLOs.Meanwhile, FaST-Scheduler schedules function with efficient GPU node selection to maximize GPU usage.Furthermore, model sharing is exploited to mitigate memory contention.Our prototype implementation on the OpenFaaS platform and experiments on MLPerf-based benchmark prove that FaST-GShare can ensure resource isolation and function SLOs.Compared to the time sharing mechanism, FaST-GShare can improve throughput by 3.15x, GPU utilization by 1.34x, and SM (Streaming Multiprocessor) occupancy by 3.13x on average.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
积极的小馒头应助任我行采纳,获得10
1秒前
wwqc完成签到,获得积分0
2秒前
3秒前
laozhao发布了新的文献求助20
6秒前
一切尽意,百事从欢完成签到,获得积分0
7秒前
淡漠发布了新的文献求助10
9秒前
上官若男应助学术智子采纳,获得10
9秒前
上官若男应助DUAN采纳,获得20
10秒前
LY完成签到 ,获得积分10
11秒前
11秒前
人间枝头完成签到,获得积分10
12秒前
pzh完成签到,获得积分10
13秒前
风趣易蓉完成签到,获得积分10
13秒前
14秒前
阿耒完成签到,获得积分10
14秒前
谦让盼海完成签到,获得积分10
14秒前
14秒前
15秒前
16秒前
16秒前
阿耒发布了新的文献求助10
17秒前
lxdx发布了新的文献求助10
17秒前
今昔发布了新的文献求助10
19秒前
思琪发布了新的文献求助10
21秒前
27秒前
lxdx完成签到,获得积分10
27秒前
项夷完成签到,获得积分10
34秒前
37秒前
38秒前
38秒前
nice1334发布了新的文献求助30
42秒前
小马甲应助咕咕咕咕采纳,获得10
42秒前
别潜然发布了新的文献求助10
42秒前
48秒前
Ava应助今昔采纳,获得10
49秒前
犹豫觅翠完成签到,获得积分10
51秒前
53秒前
53秒前
kim发布了新的文献求助10
53秒前
刘田完成签到 ,获得积分10
53秒前
高分求助中
LNG地上式貯槽指針 (JGA指 ; 108) 1000
LNG地下式貯槽指針(JGA指-107)(LNG underground storage tank guidelines) 1000
Generalized Linear Mixed Models 第二版 1000
Preparation and Characterization of Five Amino-Modified Hyper-Crosslinked Polymers and Performance Evaluation for Aged Transformer Oil Reclamation 700
Operative Techniques in Pediatric Orthopaedic Surgery 510
九经直音韵母研究 500
Full waveform acoustic data processing 500
热门求助领域 (近24小时)
化学 医学 材料科学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 物理化学 催化作用 免疫学 细胞生物学 电极
热门帖子
关注 科研通微信公众号,转发送积分 2927596
求助须知:如何正确求助?哪些是违规求助? 2576896
关于积分的说明 6955073
捐赠科研通 2227677
什么是DOI,文献DOI怎么找? 1184008
版权声明 589370
科研通“疑难数据库(出版商)”最低求助积分说明 579380