Large language models improve annotation of prokaryotic viral proteins

人病毒体 注释 计算生物学 基因组 基因组 生物 基因 遗传学
作者
Zachary Flamholz,Steven J. Biller,Libusha Kelly
出处
期刊:Nature microbiology 卷期号:9 (2): 537-549 被引量:9
标识
DOI:10.1038/s41564-023-01584-8
摘要

Viral genomes are poorly annotated in metagenomic samples, representing an obstacle to understanding viral diversity and function. Current annotation approaches rely on alignment-based sequence homology methods, which are limited by the paucity of characterized viral proteins and divergence among viral sequences. Here we show that protein language models can capture prokaryotic viral protein function, enabling new portions of viral sequence space to be assigned biologically meaningful labels. When applied to global ocean virome data, our classifier expanded the annotated fraction of viral protein families by 29%. Among previously unannotated sequences, we highlight the identification of an integrase defining a mobile element in marine picocyanobacteria and a capsid protein that anchors globally widespread viral elements. Furthermore, improved high-level functional annotation provides a means to characterize similarities in genomic organization among diverse viral sequences. Protein language models thus enhance remote homology detection of viral proteins, serving as a useful complement to existing approaches. Ocean viral proteome annotations are expanded by a machine learning approach that is not reliant on sequence homology and can annotate sequences not homologous to those seen in training.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
传奇3应助程硕采纳,获得10
1秒前
lwj发布了新的文献求助10
2秒前
传奇3应助调皮寒凝采纳,获得10
2秒前
2秒前
2秒前
科研通AI2S应助大壮采纳,获得30
3秒前
丘比特应助Komorebi采纳,获得10
4秒前
hshhhhh完成签到 ,获得积分10
4秒前
nininidoc完成签到,获得积分10
5秒前
doin发布了新的文献求助10
6秒前
zg完成签到,获得积分10
9秒前
传奇3应助认真的忆文采纳,获得10
9秒前
23完成签到 ,获得积分10
10秒前
12秒前
17秒前
18秒前
没所谓发布了新的文献求助10
19秒前
追寻傲玉发布了新的文献求助10
20秒前
俭朴咖啡发布了新的文献求助20
20秒前
Komorebi发布了新的文献求助10
20秒前
22秒前
飞云发布了新的文献求助10
23秒前
追寻傲玉完成签到,获得积分10
26秒前
快乐的心情完成签到,获得积分10
28秒前
舒心友容关注了科研通微信公众号
28秒前
材料小刘鸭完成签到,获得积分10
32秒前
昱珂完成签到,获得积分10
33秒前
小二郎应助没所谓采纳,获得10
35秒前
12345完成签到,获得积分10
37秒前
小越越完成签到,获得积分10
39秒前
上官若男应助执着丝采纳,获得10
43秒前
安慧娜完成签到,获得积分20
43秒前
43秒前
zzzDr张琦发布了新的文献求助10
46秒前
不挑食的Marcophages完成签到,获得积分10
47秒前
lee发布了新的文献求助40
48秒前
gaoyang123完成签到 ,获得积分10
49秒前
51秒前
英姑应助时尚的青丝采纳,获得10
52秒前
52秒前
高分求助中
Handbook of Fuel Cells, 6 Volume Set 1666
Interaction Effects in Linear and Generalized Linear Models: Examples and Applications Using Stata® 1000
求助这个网站里的问题集 1000
Floxuridine; Third Edition 1000
Tracking and Data Fusion: A Handbook of Algorithms 1000
La décision juridictionnelle 800
Rechtsphilosophie und Rechtstheorie 800
热门求助领域 (近24小时)
化学 医学 材料科学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 物理化学 催化作用 免疫学 细胞生物学 电极
热门帖子
关注 科研通微信公众号,转发送积分 2867761
求助须知:如何正确求助?哪些是违规求助? 2474737
关于积分的说明 6710014
捐赠科研通 2163262
什么是DOI,文献DOI怎么找? 1149355
版权声明 585523
科研通“疑难数据库(出版商)”最低求助积分说明 564353