Incremental and Semi-Supervised Learning of 16S-rRNA Genes For Taxonomic Classification

基因组 计算机科学 聚类分析 再培训 数据挖掘 机器学习 生物分类 人工智能 生物 基因 生物化学 进化生物学 业务 国际贸易
作者
Emrecan Ozdogan,Norman C. Sabin,Thomas Gracie,Steven Portley,Mali Halac,Thomas Coard,W. Trimble,Bahrad A. Sokhansanj,Gail Rosen,Robi Polikar
标识
DOI:10.1109/ssci50451.2021.9660093
摘要

Genome sequencing generates large volumes of data and hence requires increasingly higher computational resources. The growing data problem is even more acute in metagenomics applications, where data from an environmental sample include many organisms instead of just one for the common single organism sequencing. Traditional taxonomic classification and clustering approaches and platforms - while designed to be computationally efficient - are not capable of incrementally updating a previously trained system when new data arrive, which then requires complete re-training with the augmented (old plus new) data. Such complete retraining is inefficient and leads to poor utilization of computational resources. An ability to update a classification system with only new data offers a much lower run-time as new data are presented, and does not require the approach to be re-trained on the entire previous dataset. In this paper, we propose Incremental VSEARCH (I-VSEARCH) and its semi-supervised version for taxonomic classification, as well as a threshold independent VSEARCH (TI-VSEARCH) as wrappers around VSEARCH, a well-established (unsupervised) clustering algorithm for metagenomics. We show - on a 16S rRNA gene dataset - that I-VSEARCH, running incrementally only on the new batches of data that become available over time, does not lose any accuracy over VSEARCH that runs on the full data, while providing attractive computational benefits.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
Serena发布了新的文献求助10
刚刚
眯眯眼的衬衫应助lorena采纳,获得10
刚刚
1秒前
Deerlu完成签到,获得积分10
2秒前
善学以致用应助一菩提采纳,获得10
3秒前
HeyHsc完成签到,获得积分10
4秒前
刘小腿完成签到,获得积分20
4秒前
FengXY发布了新的文献求助10
4秒前
5秒前
6秒前
qiehahah发布了新的文献求助10
6秒前
Naaa完成签到,获得积分10
6秒前
鱼海寻俞发布了新的文献求助10
7秒前
玉洁发布了新的文献求助10
7秒前
快乐的绿兰完成签到,获得积分10
8秒前
Thing完成签到,获得积分10
9秒前
咩咩兔完成签到,获得积分10
9秒前
蔬菜狗狗发布了新的文献求助20
9秒前
栗子应助hu采纳,获得10
9秒前
小孟不想读文献完成签到,获得积分10
10秒前
10秒前
10秒前
华仔应助没有你不行采纳,获得10
10秒前
11秒前
kxx完成签到 ,获得积分10
11秒前
咩咩兔发布了新的文献求助10
12秒前
lalala应助宇文青寒采纳,获得20
12秒前
14秒前
15秒前
16秒前
鱼海寻俞完成签到,获得积分10
16秒前
爆米花应助白小超人采纳,获得10
17秒前
东方欲晓应助cruise采纳,获得10
18秒前
kinzer完成签到 ,获得积分10
20秒前
落后安筠发布了新的文献求助10
20秒前
李爱国应助咩咩兔采纳,获得10
20秒前
古的古的应助愉快的御姐采纳,获得10
20秒前
20秒前
YSL发布了新的文献求助10
21秒前
fan发布了新的文献求助10
21秒前
高分求助中
Continuum Thermodynamics and Material Modelling 4000
Production Logging: Theoretical and Interpretive Elements 2700
Ensartinib (Ensacove) for Non-Small Cell Lung Cancer 1000
Les Mantodea de Guyane Insecta, Polyneoptera 1000
Unseen Mendieta: The Unpublished Works of Ana Mendieta 1000
El viaje de una vida: Memorias de María Lecea 800
Luis Lacasa - Sobre esto y aquello 700
热门求助领域 (近24小时)
化学 材料科学 生物 医学 工程类 有机化学 生物化学 物理 纳米技术 计算机科学 内科学 化学工程 复合材料 基因 遗传学 物理化学 催化作用 量子力学 光电子学 冶金
热门帖子
关注 科研通微信公众号,转发送积分 3522922
求助须知:如何正确求助?哪些是违规求助? 3103872
关于积分的说明 9267825
捐赠科研通 2800626
什么是DOI,文献DOI怎么找? 1537038
邀请新用户注册赠送积分活动 715354
科研通“疑难数据库(出版商)”最低求助积分说明 708759