Clustering Billions of Reads for DNA Data Storage

计算机科学 聚类分析 可扩展性 加速 数据挖掘 管道(软件) 编辑距离 算法 公制(单位) 离群值 趋同(经济学) 噪音(视频) 人工智能 并行计算 数据库 图像(数学) 经济 经济增长 程序设计语言 运营管理
作者
Cyrus Rashtchian,Konstantin Makarychev,Miklós Z. Rácz,Siena Dumas Ang,Djordje Jevdjic,Sergey Yekhanin,Luís Ceze,Karin Strauß
出处
期刊:Neural Information Processing Systems 卷期号:30: 3360-3371 被引量:40
链接
摘要

Storing data in synthetic DNA offers the possibility of improving information density and durability by several orders of magnitude compared to current storage technologies. However, DNA data storage requires a computationally intensive process to retrieve the data. In particular, a crucial step in the data retrieval pipeline involves clustering billions of strings with respect to edit distance. Datasets in this domain have many notable properties, such as containing a very large number of small clusters that are well-separated in the edit distance metric space. In this regime, existing algorithms are unsuitable because of either their long running time or low accuracy. To address this issue, we present a novel distributed algorithm for approximately computing the underlying clusters. Our algorithm converges efficiently on any dataset that satisfies certain separability properties, such as those coming from DNA data storage systems. We also prove that, under these assumptions, our algorithm is robust to outliers and high levels of noise. We provide empirical justification of the accuracy, scalability, and convergence of our algorithm on real and synthetic data. Compared to the state-of-the-art algorithm for clustering DNA sequences, our algorithm simultaneously achieves higher accuracy and a 1000x speedup on three real datasets.

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
Akim应助qiu采纳,获得10
1秒前
1秒前
不安的冷荷完成签到,获得积分20
2秒前
2秒前
Xingliang_Wu98完成签到,获得积分10
3秒前
陈豆豆发布了新的文献求助20
3秒前
zhoux完成签到 ,获得积分10
3秒前
Wendy完成签到,获得积分10
6秒前
6秒前
复杂涵柏发布了新的文献求助10
7秒前
9秒前
JamesPei应助小正采纳,获得10
9秒前
jdz完成签到 ,获得积分10
9秒前
科研通AI2S应助lier采纳,获得10
9秒前
10秒前
10秒前
Dado完成签到,获得积分10
12秒前
13秒前
葛辉辉发布了新的文献求助10
14秒前
皮三问发布了新的文献求助10
14秒前
15秒前
15秒前
东方琉璃完成签到,获得积分10
17秒前
hyq008发布了新的文献求助20
17秒前
李健的小迷弟应助湘北采纳,获得10
18秒前
pjm发布了新的文献求助10
19秒前
科研通AI2S应助liu采纳,获得10
19秒前
19秒前
19秒前
21秒前
阿及君发布了新的文献求助10
21秒前
吃猫的鱼完成签到 ,获得积分10
23秒前
23秒前
23秒前
24秒前
pjm完成签到,获得积分10
25秒前
Tireastani发布了新的文献求助10
25秒前
Alicia完成签到 ,获得积分10
25秒前
1111完成签到,获得积分10
26秒前
科研通AI2S应助葛辉辉采纳,获得10
27秒前
高分求助中
求助这个网站里的问题集 1000
Tracking and Data Fusion: A Handbook of Algorithms 1000
Models of Teaching(The 10th Edition,第10版!)《教学模式》(第10版!) 800
La décision juridictionnelle 800
Rechtsphilosophie und Rechtstheorie 800
Nonlocal Integral Equation Continuum Models: Nonstandard Symmetric Interaction Neighborhoods and Finite Element Discretizations 600
The risk of colorectal cancer in ulcerative colitis: a meta-analysis 500
热门求助领域 (近24小时)
化学 医学 材料科学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 物理化学 催化作用 免疫学 细胞生物学 电极
热门帖子
关注 科研通微信公众号,转发送积分 2875293
求助须知:如何正确求助?哪些是违规求助? 2486241
关于积分的说明 6732238
捐赠科研通 2169904
什么是DOI,文献DOI怎么找? 1152776
版权声明 585892
科研通“疑难数据库(出版商)”最低求助积分说明 565908