标题 |
![]() Galaxy:用于原位Transformer model推理的资源高效协作边缘AI系统
相关领域
推论
计算机科学
变压器
原位
人工智能
工程类
电气工程
物理
电压
气象学
|
网址 | |
DOI | |
其它 | 摘要(翻译):基于 Transformer 的模型在边缘解锁了大量强大的智能应用程序,例如智能家居中的语音助手。传统的部署方法将推理工作负载卸载到远程云服务器,这会给主干网络带来巨大压力,并引发用户的隐私问题。为了解决这个问题,原位推理最近已得到边缘智能的认可,但它仍然面临着来自密集型工作负载和有限的设备计算资源之间的冲突的重大挑战。在本文中,我们利用我们的观察结果,即许多边缘环境通常由一组丰富的可用可信边缘设备组成,这些设备具有闲置资源,并提出了 Galaxy,这是一种协作式边缘人工智能系统,可打破异构边缘设备的资源壁垒,以实现高效的 Transformer 推理加速。Galaxy 引入了一种新颖的混合模型并行性来编排协作推理,以及异构感知并行性规划,以充分利用资源潜力。此外, Galaxy 设计了一种基于图块的通信和计算细粒度重叠,以减轻带宽受限边缘环境下张量同步对推理延迟的影响。基于原型实现的广泛评估表明,Galaxy 在各种边缘环境设置下的性能明显优于最先进的方法,实现了高达 2.5× 的端到端延迟降低。 |
求助人 | |
下载 | 求助已完成,仅限求助人下载。 |
温馨提示:该文献已被科研通 学术中心 收录,前往查看
科研通『学术中心』是文献索引库,收集文献的基本信息(如标题、摘要、期刊、作者、被引量等),不提供下载功能。如需下载文献全文,请通过文献求助获取。
|