清晨好,您是今天最早来到科研通的研友!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您科研之路漫漫前行!

Superior protein thermophilicity prediction with protein language model embeddings

热稳定性 计算机科学 生物信息学 蛋白质测序 人工智能 蛋白质稳定性 机器学习 数据挖掘 肽序列 生物 生物化学 基因
作者
Florian Haselbeck,Maura John,Yuqi Zhang,Jonathan Pirnay,J. Werner,Rubén D. Costa,Dominik G. Grimm
出处
期刊:NAR genomics and bioinformatics [Oxford University Press]
卷期号:5 (4) 被引量:14
标识
DOI:10.1093/nargab/lqad087
摘要

Protein thermostability is important in many areas of biotechnology, including enzyme engineering and protein-hybrid optoelectronics. Ever-growing protein databases and information on stability at different temperatures allow the training of machine learning models to predict whether proteins are thermophilic. In silico predictions could reduce costs and accelerate the development process by guiding researchers to more promising candidates. Existing models for predicting protein thermophilicity rely mainly on features derived from physicochemical properties. Recently, modern protein language models that directly use sequence information have demonstrated superior performance in several tasks. In this study, we evaluate the usefulness of protein language model embeddings for thermophilicity prediction with ProLaTherm, a Protein Language model-based Thermophilicity predictor. ProLaTherm significantly outperforms all feature-, sequence- and literature-based comparison partners on multiple evaluation metrics. In terms of the Matthew's correlation coefficient, ProLaTherm outperforms the second-best competitor by 18.1% in a nested cross-validation setup. Using proteins from species not overlapping with species from the training data, ProLaTherm outperforms all competitors by at least 9.7%. On these data, it misclassified only one nonthermophilic protein as thermophilic. Furthermore, it correctly identified 97.4% of all thermophilic proteins in our test set with an optimal growth temperature above 70°C.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
5秒前
circle发布了新的文献求助10
16秒前
量子星尘发布了新的文献求助10
18秒前
毕书白完成签到,获得积分10
29秒前
量子星尘发布了新的文献求助10
29秒前
Akim应助满意访冬采纳,获得10
32秒前
情怀应助毕书白采纳,获得30
36秒前
44秒前
满意访冬发布了新的文献求助10
49秒前
量子星尘发布了新的文献求助10
49秒前
量子星尘发布了新的文献求助10
58秒前
量子星尘发布了新的文献求助10
1分钟前
1分钟前
毕书白发布了新的文献求助30
1分钟前
量子星尘发布了新的文献求助10
1分钟前
1分钟前
量子星尘发布了新的文献求助10
1分钟前
紫熊完成签到,获得积分10
1分钟前
oscar完成签到,获得积分10
1分钟前
世隐发布了新的文献求助30
1分钟前
量子星尘发布了新的文献求助30
2分钟前
隐形曼青应助Yound采纳,获得10
2分钟前
量子星尘发布了新的文献求助10
2分钟前
2分钟前
量子星尘发布了新的文献求助10
2分钟前
circle完成签到,获得积分10
2分钟前
77发布了新的文献求助20
2分钟前
量子星尘发布了新的文献求助10
2分钟前
量子星尘发布了新的文献求助10
3分钟前
科研通AI2S应助科研通管家采纳,获得10
3分钟前
小马甲应助科研通管家采纳,获得10
3分钟前
3分钟前
Jj7完成签到,获得积分10
3分钟前
caden完成签到,获得积分10
3分钟前
小全完成签到,获得积分10
3分钟前
Priscilla应助小全采纳,获得10
3分钟前
量子星尘发布了新的文献求助10
3分钟前
细心的如天完成签到 ,获得积分10
3分钟前
3分钟前
xin发布了新的文献求助10
3分钟前
高分求助中
Production Logging: Theoretical and Interpretive Elements 2700
Neuromuscular and Electrodiagnostic Medicine Board Review 1000
Statistical Methods for the Social Sciences, Global Edition, 6th edition 600
こんなに痛いのにどうして「なんでもない」と医者にいわれてしまうのでしょうか 510
ALUMINUM STANDARDS AND DATA 500
Walter Gilbert: Selected Works 500
岡本唐貴自伝的回想画集 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3666414
求助须知:如何正确求助?哪些是违规求助? 3225446
关于积分的说明 9763017
捐赠科研通 2935282
什么是DOI,文献DOI怎么找? 1607589
邀请新用户注册赠送积分活动 759266
科研通“疑难数据库(出版商)”最低求助积分说明 735188