Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning

修剪 人气 计算机科学 语言模型 钥匙(锁) 刮擦 航程(航空) 机器学习 人工智能 工程类 程序设计语言 心理学 生物 社会心理学 计算机安全 航空航天工程 农学
作者
Mengzhou Xia,Tianyu Gao,Zhiyuan Zeng,Danqi Chen
出处
期刊:Cornell University - arXiv 被引量:8
标识
DOI:10.48550/arxiv.2310.06694
摘要

The popularity of LLaMA (Touvron et al., 2023a;b) and other recently emerged moderate-sized large language models (LLMs) highlights the potential of building smaller yet powerful LLMs. Regardless, the cost of training such models from scratch on trillions of tokens remains high. In this work, we study structured pruning as an effective means to develop smaller LLMs from pre-trained, larger models. Our approach employs two key techniques: (1) targeted structured pruning, which prunes a larger model to a specified target shape by removing layers, heads, and intermediate and hidden dimensions in an end-to-end manner, and (2) dynamic batch loading, which dynamically updates the composition of sampled data in each training batch based on varying losses across different domains. We demonstrate the efficacy of our approach by presenting the Sheared-LLaMA series, pruning the LLaMA2-7B model down to 1.3B and 2.7B parameters. Sheared-LLaMA models outperform state-of-the-art open-source models of equivalent sizes, such as Pythia, INCITE, and OpenLLaMA models, on a wide range of downstream and instruction tuning evaluations, while requiring only 3% of compute compared to training such models from scratch. This work provides compelling evidence that leveraging existing LLMs with structured pruning is a far more cost-effective approach for building smaller LLMs.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
hhhhhhhh完成签到,获得积分10
刚刚
阿布发布了新的文献求助40
刚刚
张元东发布了新的文献求助10
2秒前
所所应助wcy001采纳,获得10
2秒前
科研通AI5应助liu采纳,获得10
3秒前
虚幻听安发布了新的文献求助10
3秒前
bkagyin应助小单采纳,获得10
3秒前
上官若男应助keyan采纳,获得10
3秒前
4秒前
1234567890l发布了新的文献求助10
5秒前
烟花应助Chao123_采纳,获得10
6秒前
狄百招完成签到,获得积分10
6秒前
拼搏的如松完成签到,获得积分20
6秒前
7秒前
小李发布了新的文献求助10
8秒前
八爪鱼发布了新的文献求助10
9秒前
12秒前
我是老大应助fly采纳,获得10
13秒前
13秒前
Chao123_完成签到,获得积分20
13秒前
小余同学发布了新的文献求助10
13秒前
Ricef发布了新的文献求助10
13秒前
13秒前
14秒前
客厅狂欢完成签到,获得积分10
14秒前
15秒前
自行输入昵称完成签到,获得积分10
15秒前
15秒前
16秒前
玩命的忆曼完成签到,获得积分10
16秒前
可爱的函函应助刘小胖采纳,获得10
17秒前
烟沿衍言发布了新的文献求助10
18秒前
辉辉完成签到,获得积分10
19秒前
Chao123_发布了新的文献求助10
19秒前
zjy03259发布了新的文献求助10
19秒前
keyan发布了新的文献求助10
19秒前
wanci应助张元东采纳,获得10
19秒前
小单发布了新的文献求助10
20秒前
脑洞疼应助尊敬的毛豆采纳,获得10
20秒前
20秒前
高分求助中
【此为提示信息,请勿应助】请按要求发布求助,避免被关 20000
Production Logging: Theoretical and Interpretive Elements 3000
J'AI COMBATTU POUR MAO // ANNA WANG 660
Izeltabart tapatansine - AdisInsight 600
Introduction to Comparative Public Administration Administrative Systems and Reforms in Europe, Third Edition 3rd edition 500
Geotechnical characterization of slope movements 500
Individualized positive end-expiratory pressure in laparoscopic surgery: a randomized controlled trial 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3752875
求助须知:如何正确求助?哪些是违规求助? 3296450
关于积分的说明 10093989
捐赠科研通 3011290
什么是DOI,文献DOI怎么找? 1653702
邀请新用户注册赠送积分活动 788396
科研通“疑难数据库(出版商)”最低求助积分说明 752809