Learned Probing Cardinality Estimation for High-Dimensional Approximate NN Search

计算机科学 基数(数据建模) 修剪 聚类分析 散列函数 人工神经网络 量化(信号处理) 算法 数据挖掘 理论计算机科学 人工智能 农学 计算机安全 生物
作者
Bolong Zheng,Ziyang Yue,Qi Hu,Xiaomeng Yi,Xiaofan Luan,Charles Xie,Xiaofang Zhou,Christian S. Jensen
标识
DOI:10.1109/icde55515.2023.00246
摘要

Approximate nearest neighbor (ANN) search in high-dimensional space plays an essential role in a variety of real-world applications. A well-known solution to ANN search, inverted file product quantization (IVFPQ) adopts inverted files to avoid exhaustive examination and compresses vectors using product quantization to reduce the space overhead. However, existing implementations use the same fixed probing cardinality (i.e., the number of cells to probe) setting for all queries, which leads to too many or too few cell examinations, thus increasing the average query latency or reducing the recall. To achieve a better trade-off between latency and accuracy, we enable probing cardinality estimation for high-dimensional ANN search by using deep learning techniques. We develop HBK-means, a hierarchical balanced clustering algorithm that reduces the data distribution imbalance of cells to enable a better estimation. Next, we develop PCE-Net, an encoder-decoder based neural network for estimating query-dependent minimum probing cardinality. In addition, we introduce two query optimization strategies: lower bound sorting based pruning (LBS-Pruning) and early termination (ET), to further reduce query latency. Extensive experiments with real-world data offer evidence that the proposed solution is capable of achieving better performance than IVFPQ and its variants.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
1秒前
1秒前
1秒前
诗韵啊发布了新的文献求助10
1秒前
迷路的小蚂蚁完成签到,获得积分10
1秒前
callmecjh完成签到,获得积分10
1秒前
LiPengpeng完成签到,获得积分10
1秒前
1秒前
2秒前
yiyi完成签到,获得积分10
2秒前
2秒前
马大帅完成签到,获得积分10
2秒前
gegege完成签到,获得积分10
2秒前
归仔发布了新的文献求助10
2秒前
tywwxy完成签到,获得积分10
2秒前
Sky我的小清新完成签到,获得积分10
3秒前
ning发布了新的文献求助10
3秒前
cecil-xu发布了新的文献求助10
3秒前
依灵完成签到,获得积分10
3秒前
邓sir完成签到,获得积分20
3秒前
风中乌发布了新的文献求助100
3秒前
落后蓝天发布了新的文献求助10
3秒前
一只呆果蝇完成签到 ,获得积分10
3秒前
昏睡的沧海完成签到,获得积分10
4秒前
大拿完成签到,获得积分10
4秒前
sadsnake完成签到,获得积分10
4秒前
5秒前
tywwxy发布了新的文献求助10
5秒前
桐桐应助hygogogo采纳,获得10
5秒前
sherry完成签到,获得积分10
5秒前
6秒前
温婉的靖儿完成签到,获得积分10
6秒前
nannan发布了新的文献求助10
6秒前
柒柒完成签到,获得积分10
6秒前
Owen应助竹雨轩采纳,获得10
7秒前
lulu完成签到,获得积分10
7秒前
充电宝应助不要异地采纳,获得10
7秒前
7秒前
7秒前
欻欻欻发布了新的文献求助10
8秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Prompt Engineering for Clinicians: Harnessing AI in Everyday Medical Practice 600
University Physics for the Life Sciences 500
REAL-WORLD EFFICACY AND GENOMIC LANDSCAPE OF POLATUZUMA VEDOTIN-BASED FIRST-LINE THERAPY IN DIFFUSE LARGE B-CELL LYMPHOMA: A FOCUS ON TP53 MUTATIONS AND TREATMENT RESPONSE 500
Handbook of Luminescence Dating 500
Safety Pharmacology 500
《KNN基无铅压电陶瓷电学性能优化与物理机理研究》 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 计算机科学 化学工程 生物化学 物理 内科学 复合材料 催化作用 光电子学 物理化学 电极 细胞生物学 基因 遗传学
热门帖子
关注 科研通微信公众号,转发送积分 6952833
求助须知:如何正确求助?哪些是违规求助? 8636832
关于积分的说明 18314365
捐赠科研通 6396113
什么是DOI,文献DOI怎么找? 3082545
关于科研通互助平台的介绍 2128236
邀请新用户注册赠送积分活动 2059406