DDK: Dynamic structure pruning based on differentiable search and recursive knowledge distillation for BERT

计算机科学 修剪 水准点(测量) 蒸馏 可微函数 加权 机器学习 人工智能 语言模型 比例(比率) 数学 地理 量子力学 放射科 有机化学 大地测量学 物理 数学分析 医学 生物 农学 化学
作者
Zhou Zhang,Yang Lu,Tengfei Wang,Xing Wei,Zhen Wei
出处
期刊:Neural Networks [Elsevier BV]
卷期号:173: 106164-106164 被引量:3
标识
DOI:10.1016/j.neunet.2024.106164
摘要

Large-scale pre-trained models, such as BERT, have demonstrated outstanding performance in Natural Language Processing (NLP). Nevertheless, the high number of parameters in these models has increased the demand for hardware storage and computational resources while posing a challenge for their practical deployment. In this article, we propose a combined method of model pruning and knowledge distillation to compress and accelerate large-scale pre-trained language models. Specifically, we introduce a dynamic structure pruning method based on differentiable search and recursive knowledge distillation to automatically prune the BERT model, named DDK. We define the search space for network pruning as all feed-forward layer channels and self-attention heads at each layer of the network, and utilize differentiable methods to determine their optimal number. Additionally, we design a recursive knowledge distillation method that employs adaptive weighting to extract the most important features from multiple intermediate layers of the teacher model and fuse them to supervise the student network learning. Our experimental results on the GLUE benchmark dataset and ablation analysis demonstrate that our proposed method outperforms other advanced methods in terms of average performance.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
Frank完成签到,获得积分10
刚刚
zizi完成签到,获得积分10
刚刚
tomato发布了新的文献求助10
1秒前
1秒前
1秒前
2秒前
MJMarker发布了新的文献求助10
3秒前
鳗鱼香萱完成签到,获得积分20
3秒前
无花果应助王哒哒采纳,获得10
3秒前
KangL完成签到,获得积分10
4秒前
yu发布了新的文献求助10
4秒前
4秒前
gu关闭了gu文献求助
5秒前
小蘑菇应助枫叶采纳,获得10
5秒前
爆米花应助明天见采纳,获得10
6秒前
6秒前
6秒前
冯广发布了新的文献求助10
6秒前
kin发布了新的文献求助10
6秒前
微尘应助风语过采纳,获得10
6秒前
坤123发布了新的文献求助10
7秒前
7秒前
9秒前
9秒前
木子发布了新的文献求助10
9秒前
坐看云起时完成签到,获得积分20
10秒前
10秒前
怡然的如冰完成签到 ,获得积分10
10秒前
12秒前
妍妆不施完成签到 ,获得积分10
12秒前
13秒前
13秒前
嗯嗯的嗯嗯完成签到,获得积分10
13秒前
13秒前
13秒前
14秒前
果果完成签到,获得积分10
14秒前
正直小蚂蚁完成签到,获得积分10
14秒前
15秒前
雪白冷风完成签到 ,获得积分10
15秒前
高分求助中
The Wiley Blackwell Companion to Diachronic and Historical Linguistics 3000
HANDBOOK OF CHEMISTRY AND PHYSICS 106th edition 1000
ASPEN Adult Nutrition Support Core Curriculum, Fourth Edition 1000
Decentring Leadership 800
Signals, Systems, and Signal Processing 610
脑电大模型与情感脑机接口研究--郑伟龙 500
Genera Orchidacearum Volume 4: Epidendroideae, Part 1 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6288580
求助须知:如何正确求助?哪些是违规求助? 8107144
关于积分的说明 16959628
捐赠科研通 5353464
什么是DOI,文献DOI怎么找? 2844772
邀请新用户注册赠送积分活动 1821993
关于科研通互助平台的介绍 1678156