Comparison of the Strengths and Weaknesses of Machine Learning Algorithms and Feature Selection on KEGG Database Microbial Gene Pathway Annotation and Its Effects on Reconstructed Network Topology

小桶 注释 聚类分析 人工智能 机器学习 计算机科学 基因注释 人类微生物组计划 生物 基因 基因组 计算生物学 基因组 遗传学 基因表达 转录组
作者
Michael Robben,Mohammad Sadegh Nasr,Avishek Das,Jai Prakash Veerla,Manfred Huber,Justyn Jaworski,Jon A. Weidanz,Jacob M. Luber
出处
期刊:Journal of Computational Biology [Mary Ann Liebert]
卷期号:30 (7): 766-782
标识
DOI:10.1089/cmb.2022.0370
摘要

The development of tools for the annotation of genes from newly sequenced species has not evolved much from homologous alignment to prior annotated species. While the quality of gene annotations continues to decline as we sequence and assemble more evolutionary distant gut microbiome species, machine learning presents a high quality alternative to traditional techniques. In this study, we investigate the relative performance of common classical and nonclassical machine learning algorithms in the problem of gene annotation using human microbiome-associated species genes from the KEGG database. The majority of the ensemble, clustering, and deep learning algorithms that we investigated showed higher prediction accuracy than CD-Hit in predicting partial KEGG function. Motif-based, machine-learning methods of annotation in new species were faster and had higher precision–recall than methods of homologous alignment or orthologous gene clustering. Gradient boosted ensemble methods and neural networks also predicted higher connectivity in reconstructed KEGG pathways, finding twice as many new pathway interactions than blast alignment. The use of motif-based, machine-learning algorithms in annotation software will allow researchers to develop powerful tools to interact with bacterial microbiomes in ways previously unachievable through homologous sequence alignment alone.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
2秒前
petrichor应助C_Cppp采纳,获得10
2秒前
nan完成签到,获得积分10
2秒前
2秒前
3秒前
3秒前
勤恳的雨文完成签到,获得积分10
3秒前
木森ab发布了新的文献求助10
4秒前
paul完成签到,获得积分10
4秒前
小鞋完成签到,获得积分10
5秒前
开心青旋发布了新的文献求助10
5秒前
fztnh发布了新的文献求助10
5秒前
无名花生完成签到 ,获得积分10
5秒前
7秒前
8秒前
8秒前
杜若完成签到,获得积分10
8秒前
8秒前
木森ab完成签到,获得积分20
10秒前
paul发布了新的文献求助10
11秒前
12秒前
MEME发布了新的文献求助10
15秒前
15秒前
情怀应助LSH970829采纳,获得10
15秒前
CHINA_C13发布了新的文献求助10
18秒前
Mars发布了新的文献求助10
19秒前
哈哈哈完成签到,获得积分10
19秒前
玛卡巴卡应助平常的毛豆采纳,获得100
20秒前
默默的青旋完成签到,获得积分10
21秒前
24秒前
搜集达人应助淡淡采白采纳,获得10
24秒前
高高代珊完成签到 ,获得积分10
25秒前
gmc发布了新的文献求助10
26秒前
26秒前
27秒前
善学以致用应助Mian采纳,获得10
27秒前
学科共进发布了新的文献求助60
28秒前
LWJ完成签到 ,获得积分10
28秒前
28秒前
缓慢的糖豆完成签到,获得积分10
29秒前
高分求助中
Continuum Thermodynamics and Material Modelling 3000
Production Logging: Theoretical and Interpretive Elements 2700
Social media impact on athlete mental health: #RealityCheck 1020
Ensartinib (Ensacove) for Non-Small Cell Lung Cancer 1000
Unseen Mendieta: The Unpublished Works of Ana Mendieta 1000
Bacterial collagenases and their clinical applications 800
El viaje de una vida: Memorias de María Lecea 800
热门求助领域 (近24小时)
化学 材料科学 生物 医学 工程类 有机化学 生物化学 物理 纳米技术 计算机科学 内科学 化学工程 复合材料 基因 遗传学 物理化学 催化作用 量子力学 光电子学 冶金
热门帖子
关注 科研通微信公众号,转发送积分 3527990
求助须知:如何正确求助?哪些是违规求助? 3108173
关于积分的说明 9287913
捐赠科研通 2805882
什么是DOI,文献DOI怎么找? 1540119
邀请新用户注册赠送积分活动 716941
科研通“疑难数据库(出版商)”最低求助积分说明 709824