标题 |
使用移动边缘计算的 DNN 实时协作推理加速
相关领域
计算机科学
推论
延迟(音频)
分布式计算
分拆(数论)
GSM演进的增强数据速率
边缘设备
云计算
移动设备
背景(考古学)
近似推理
人工智能
电信
古生物学
数学
组合数学
生物
操作系统
|
网址 | |
DOI | |
其它 |
摘要: 协作推理方法将深度神经网络 (DNN) 模型分为两部分。它在终端设备和云服务器上协同运行,以最大限度地减少推理延迟并保护数据隐私,尤其是在 5G 时代。DNN 模型分区的方案取决于网络带宽大小。然而,在动态移动网络的上下文中,资源受限的设备无法有效地执行复杂的模型分区算法来实时获得最佳分区。在本文中,为了克服这一挑战,我们首先将模型分区问题表述为最小切割问题,以寻求最优分区。其次,我们提出了一种基于 CIC 的基于模型压缩的协作推理方法。CIC 通过降低算法的复杂性,提高了模型分区算法在资源受限的终端设备上执行的效率。CIC 根据 DNN 模型和平台资源的固有特征生成切分模型。拆分模型独立于网络环境,离线生成,并在当前环境中持续使用。CIC 具有出色的可压缩性,即使是具有数百层的 DNN 模型也可以在资源受限的设备上快速分区。实验结果表明,我们的方法明显比现有解决方案更有效,将模型分区决策时间加快了 100 倍,将推理延迟降低了 2.6 倍,在最佳情况下将吞吐量提高了 3.3 倍。 |
求助人 | |
下载 | 求助已完成,仅限求助人下载。 |
温馨提示:该文献已被科研通 学术中心 收录,前往查看
科研通『学术中心』是文献索引库,收集文献的基本信息(如标题、摘要、期刊、作者、被引量等),不提供下载功能。如需下载文献全文,请通过文献求助获取。
|