Comparison of the Strengths and Weaknesses of Machine Learning Algorithms and Feature Selection on KEGG Database Microbial Gene Pathway Annotation and Its Effects on Reconstructed Network Topology

小桶 注释 聚类分析 人工智能 机器学习 计算机科学 基因注释 人类微生物组计划 生物 基因 基因组 计算生物学 基因组 遗传学 基因表达 转录组
作者
Michael Robben,Mohammad Sadegh Nasr,Avishek Das,Jai Prakash Veerla,Manfred Huber,Justyn Jaworski,Jon A. Weidanz,Jacob M. Luber
出处
期刊:Journal of Computational Biology [Mary Ann Liebert]
卷期号:30 (7): 766-782
标识
DOI:10.1089/cmb.2022.0370
摘要

The development of tools for the annotation of genes from newly sequenced species has not evolved much from homologous alignment to prior annotated species. While the quality of gene annotations continues to decline as we sequence and assemble more evolutionary distant gut microbiome species, machine learning presents a high quality alternative to traditional techniques. In this study, we investigate the relative performance of common classical and nonclassical machine learning algorithms in the problem of gene annotation using human microbiome-associated species genes from the KEGG database. The majority of the ensemble, clustering, and deep learning algorithms that we investigated showed higher prediction accuracy than CD-Hit in predicting partial KEGG function. Motif-based, machine-learning methods of annotation in new species were faster and had higher precision–recall than methods of homologous alignment or orthologous gene clustering. Gradient boosted ensemble methods and neural networks also predicted higher connectivity in reconstructed KEGG pathways, finding twice as many new pathway interactions than blast alignment. The use of motif-based, machine-learning algorithms in annotation software will allow researchers to develop powerful tools to interact with bacterial microbiomes in ways previously unachievable through homologous sequence alignment alone.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
魔幻若血发布了新的文献求助10
1秒前
Phosphene应助hao采纳,获得10
2秒前
2秒前
小二郎应助顺心水风采纳,获得10
3秒前
cookie完成签到,获得积分10
3秒前
yoo发布了新的文献求助10
4秒前
5秒前
5秒前
6秒前
十一完成签到,获得积分10
7秒前
文静的紫萱完成签到,获得积分10
7秒前
tianhongfang完成签到,获得积分10
7秒前
Shi完成签到,获得积分10
8秒前
自觉的泽洋完成签到,获得积分20
8秒前
阿薛发布了新的文献求助20
8秒前
七彩光完成签到 ,获得积分10
9秒前
坚果发布了新的文献求助10
10秒前
caicailang84发布了新的文献求助10
10秒前
whatwhat发布了新的文献求助30
11秒前
会游泳的猪完成签到,获得积分10
11秒前
Hello应助柠檬味咸鱼精采纳,获得10
11秒前
蒋时晏应助浮生采纳,获得150
12秒前
xiaoshi完成签到,获得积分10
12秒前
璐璐发布了新的文献求助10
13秒前
传奇3应助ycy采纳,获得10
13秒前
坦率的小甜瓜完成签到,获得积分10
13秒前
wanci应助奶油泡fu采纳,获得10
14秒前
飞翔的霸天哥应助乔柯采纳,获得30
14秒前
16秒前
16秒前
大个应助跳跃的邪欢采纳,获得10
16秒前
尽如完成签到,获得积分10
17秒前
ZjieY完成签到,获得积分10
17秒前
科研通AI2S应助lfg采纳,获得10
18秒前
21秒前
ZjieY发布了新的文献求助10
21秒前
朴实草莓发布了新的文献求助10
21秒前
lyz完成签到,获得积分10
21秒前
22秒前
Sampson应助m方采纳,获得10
22秒前
高分求助中
Tracking and Data Fusion: A Handbook of Algorithms 1000
Models of Teaching(The 10th Edition,第10版!)《教学模式》(第10版!) 800
La décision juridictionnelle 800
Rechtsphilosophie und Rechtstheorie 800
Academic entitlement: Adapting the equity preference questionnaire for a university setting 500
Full waveform acoustic data processing 400
Bounded Meaning 400
热门求助领域 (近24小时)
化学 医学 材料科学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 物理化学 催化作用 免疫学 细胞生物学 电极
热门帖子
关注 科研通微信公众号,转发送积分 2878090
求助须知:如何正确求助?哪些是违规求助? 2491657
关于积分的说明 6744976
捐赠科研通 2172978
什么是DOI,文献DOI怎么找? 1154730
版权声明 586099
科研通“疑难数据库(出版商)”最低求助积分说明 566839