清晨好,您是今天最早来到科研通的研友!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您科研之路漫漫前行!

Fluid: Dataset Abstraction and Elastic Acceleration for Cloud-native Deep Learning Training Jobs

计算机科学 云计算 隐藏物 弹性(物理) 调度(生产过程) 加速 杠杆(统计) 分布式计算 作业调度程序 并行计算 人工智能 操作系统 运营管理 材料科学 经济 复合材料
作者
Rong Gu,Kai Zhang,Zhihao Xu,Yang Che,Bin Fan,Haojun Hou,Haipeng Dai,Li Yi,Yu Ding,Guihai Chen,Yihua Huang
标识
DOI:10.1109/icde53745.2022.00209
摘要

Nowdays, it is prevalent to train deep learning (DL) models in cloud-native platforms that actively leverage containerization and orchestration technologies for high elasticity, low and flexible operation cost, and many other benefits. However, it also faces new challenges and our work is focusing on those related to I/O throughput for training, including complex data access with complicated performance tuning, lack of cache capacity with specialized hardware to match its high and dynamic I/O requirement, and inefficient I/O resource sharing across different training jobs. We propose Fluid, a cloud-native platform that provides DL training jobs with a data abstraction called Fluid Dataset to access training data from heterogeneous sources in a unified manner with transparent and elastic data acceleration powered by auto-tuned cache runtimes. In addition, it comes with an on-the-fly cache system autoscaler that can intelligently scale up and down the cache capacity to match the online training speed of each individual DL job. To improve the overall performance of multiple DL jobs, Fluid can co-orchestrate the data cache and DL jobs by arranging job scheduling in an appropriate order. Our experimental results show significant performance improvement of each individual DL job which uses dynamic computing resources with Fluid. In addition, for scheduling multiple DL jobs with same datasets, Fluid gives around 2x performance speedup when integrated with existing widely-used and cutting-edge scheduling solutions. Fluid is now an open source project hosted by Cloud Native Computing Foundation (CNCF) with adopters in production including Alibaba Cloud, Tencent Cloud, Weibo.com, China Telecom, etc.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI

祝大家在新的一年里科研腾飞
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
一个小胖子完成签到,获得积分10
2秒前
5秒前
方俊驰发布了新的文献求助10
10秒前
ghan完成签到 ,获得积分10
12秒前
嘟嘟嘟嘟完成签到 ,获得积分10
13秒前
通科研完成签到 ,获得积分10
15秒前
方俊驰完成签到,获得积分10
17秒前
nano完成签到 ,获得积分10
37秒前
FashionBoy应助猪江黎学者采纳,获得10
41秒前
陶醉的烤鸡完成签到 ,获得积分10
1分钟前
wxyinhefeng完成签到 ,获得积分10
1分钟前
1分钟前
Polymer72应助友好的台灯采纳,获得10
1分钟前
科研通AI2S应助科研通管家采纳,获得10
1分钟前
科研通AI2S应助科研通管家采纳,获得10
1分钟前
无悔完成签到 ,获得积分10
2分钟前
泌尿小周完成签到 ,获得积分10
2分钟前
2分钟前
LiuChuannan完成签到 ,获得积分10
2分钟前
开心每一天完成签到 ,获得积分10
2分钟前
jennie完成签到 ,获得积分10
2分钟前
oaoalaa完成签到 ,获得积分10
3分钟前
科研通AI2S应助科研通管家采纳,获得10
3分钟前
情怀应助科研通管家采纳,获得10
3分钟前
3分钟前
3分钟前
科研通AI2S应助鬼见愁采纳,获得10
4分钟前
gszy1975完成签到,获得积分10
4分钟前
科研通AI2S应助鬼见愁采纳,获得10
4分钟前
4分钟前
zhao123123完成签到 ,获得积分10
4分钟前
orange完成签到 ,获得积分10
4分钟前
蓝意完成签到,获得积分0
5分钟前
woxinyouyou完成签到,获得积分0
5分钟前
5分钟前
科研通AI2S应助科研通管家采纳,获得10
5分钟前
digger2023完成签到 ,获得积分10
5分钟前
爱学习的婷完成签到 ,获得积分10
6分钟前
dracovu完成签到,获得积分10
6分钟前
6分钟前
高分求助中
Востребованный временем 2500
The Three Stars Each: The Astrolabes and Related Texts 1500
Les Mantodea de Guyane 1000
Very-high-order BVD Schemes Using β-variable THINC Method 970
Field Guide to Insects of South Africa 660
Foucault's Technologies Another Way of Cutting Reality 500
Forensic Chemistry 400
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 物理化学 催化作用 细胞生物学 免疫学 冶金
热门帖子
关注 科研通微信公众号,转发送积分 3393109
求助须知:如何正确求助?哪些是违规求助? 3003420
关于积分的说明 8809223
捐赠科研通 2690228
什么是DOI,文献DOI怎么找? 1473579
科研通“疑难数据库(出版商)”最低求助积分说明 681603
邀请新用户注册赠送积分活动 674550