Large language models generate functional protein sequences across diverse families

蛋白质超家族 计算生物学 蛋白质工程 蛋白质家族 变位酶 功能(生物学) 蛋白质测序 生物 计算机科学 脊索变位酶 序列(生物学) 肽序列 自然语言处理 遗传学 生物化学 氨基酸 基因 苯丙氨酸
作者
Ali Madani,Ben Krause,Eric R. Greene,Subu Subramanian,Benjamin P. Mohr,James M. Holton,J.L. Olmos,Caiming Xiong,Zachary Z. Sun,Richard Socher,James S. Fraser,Nikhil Naik
出处
期刊:Nature Biotechnology [Nature Portfolio]
卷期号:41 (8): 1099-1106 被引量:538
标识
DOI:10.1038/s41587-022-01618-2
摘要

Deep-learning language models have shown promise in various biotechnological applications, including protein design and engineering. Here we describe ProGen, a language model that can generate protein sequences with a predictable function across large protein families, akin to generating grammatically and semantically correct natural language sentences on diverse topics. The model was trained on 280 million protein sequences from >19,000 families and is augmented with control tags specifying protein properties. ProGen can be further fine-tuned to curated sequences and tags to improve controllable generation performance of proteins from families with sufficient homologous samples. Artificial proteins fine-tuned to five distinct lysozyme families showed similar catalytic efficiencies as natural lysozymes, with sequence identity to natural proteins as low as 31.4%. ProGen is readily adapted to diverse protein families, as we demonstrate with chorismate mutase and malate dehydrogenase.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
英俊的铭应助小少年慕采纳,获得10
刚刚
1秒前
完美世界应助yujian采纳,获得10
1秒前
森森完成签到,获得积分10
1秒前
周周完成签到,获得积分10
3秒前
3秒前
着急的大米完成签到,获得积分10
4秒前
小可乐完成签到,获得积分10
4秒前
库库写论文完成签到,获得积分10
4秒前
4秒前
三点水完成签到,获得积分10
4秒前
Yurole完成签到,获得积分10
5秒前
矜天完成签到 ,获得积分10
5秒前
6秒前
月老别闹发布了新的文献求助10
6秒前
6秒前
田様应助曾经的借过采纳,获得10
6秒前
不安的未来完成签到 ,获得积分10
6秒前
6秒前
7秒前
7秒前
怕孤独的从雪完成签到,获得积分20
7秒前
xixi发布了新的文献求助10
7秒前
7秒前
土豆不吃鱼完成签到,获得积分10
7秒前
ziyiziyi完成签到,获得积分10
8秒前
科研通AI5应助maozcmt采纳,获得10
8秒前
wmk完成签到,获得积分10
9秒前
量子星尘发布了新的文献求助10
9秒前
陈一一完成签到 ,获得积分10
9秒前
Baneyhua完成签到,获得积分10
9秒前
科研通AI5应助玫瑰采纳,获得10
9秒前
dongfan完成签到,获得积分20
9秒前
9秒前
Ava应助豪哥大大采纳,获得10
9秒前
XUXU发布了新的文献求助10
10秒前
10秒前
10秒前
虚幻的涵柏完成签到,获得积分10
11秒前
王梽旭发布了新的文献求助10
11秒前
高分求助中
Production Logging: Theoretical and Interpretive Elements 2700
Neuromuscular and Electrodiagnostic Medicine Board Review 1000
Statistical Methods for the Social Sciences, Global Edition, 6th edition 600
こんなに痛いのにどうして「なんでもない」と医者にいわれてしまうのでしょうか 510
Walter Gilbert: Selected Works 500
An Annotated Checklist of Dinosaur Species by Continent 500
岡本唐貴自伝的回想画集 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3661640
求助须知:如何正确求助?哪些是违规求助? 3222598
关于积分的说明 9746930
捐赠科研通 2932253
什么是DOI,文献DOI怎么找? 1605569
邀请新用户注册赠送积分活动 757979
科研通“疑难数据库(出版商)”最低求助积分说明 734584