A Study of K-Nearest Neighbour as an Imputation Method.

插补(统计学) 缺少数据 计算机科学 数据挖掘 知识抽取 数据质量 k-最近邻算法 数据集 人工智能 最近的邻居 机器学习 工程类 公制(单位) 运营管理
作者
Gustavo E. A. P. A. Batista,Maria Carolina Monard
摘要

Data quality is a major concern in Machine Learning and other correlated areas such as Knowledge Discovery from Databases (KDD). As most Machine Learning algorithms induce knowledge strictly from data, the quality of the knowledge extracted is largely determined by the quality of the underlying data. One relevant problem in data quality is the presence of missing data. Despite the frequent occurrence of missing data, many Machine Learning algorithms handle missing data in a rather naive way. Missing data treatment should be carefully thought, otherwise bias might be introduced into the knowledge induced. In this work, we analyse the use of the k-nearest neighbour as an imputation method. Imputation is a term that denotes a procedure that replaces the missing values in a data set by some plausible values. Our analysis indicates that missing data imputation based on the k-nearest neighbour algorithm can outperform the internal methods used by C4.5 and CN2 to treat missing data.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
科目三应助科研通管家采纳,获得10
刚刚
小二郎应助科研通管家采纳,获得10
1秒前
1秒前
大个应助hotdx采纳,获得10
2秒前
Wand完成签到,获得积分10
2秒前
x夏天发布了新的文献求助10
2秒前
风趣月饼发布了新的文献求助10
3秒前
独特听枫应助小柯采纳,获得10
5秒前
帅气逼人发布了新的文献求助10
6秒前
smilling发布了新的文献求助10
6秒前
7秒前
Jasper应助白昼采纳,获得10
9秒前
小二郎应助白昼采纳,获得10
9秒前
科目三应助白昼采纳,获得10
9秒前
9秒前
遇见完成签到,获得积分10
10秒前
10秒前
CICI完成签到 ,获得积分10
10秒前
hj完成签到 ,获得积分10
12秒前
13秒前
uian发布了新的文献求助30
14秒前
molihuakai应助研友_n0GKbL采纳,获得10
15秒前
16秒前
16秒前
17秒前
bkagyin应助帅气逼人采纳,获得10
17秒前
Kao应助润润采纳,获得10
18秒前
chenhoe1212应助海秋深烟采纳,获得10
18秒前
shuangshuang发布了新的文献求助10
18秒前
Behappy完成签到 ,获得积分10
19秒前
忧郁凌波完成签到,获得积分10
19秒前
22秒前
123发布了新的文献求助10
23秒前
hotdx发布了新的文献求助10
24秒前
27秒前
QinCaibin完成签到,获得积分10
27秒前
29秒前
30秒前
31秒前
完美世界应助ruia168采纳,获得10
33秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Cronologia da história de Macau 5000
Merrill's Atlas of Radiographic Positioning and Procedures - 3-Volume Set, 16th Edition 2000
Petrology and Plate Tectonics 800
Matrix Methods in Data Mining and Pattern Recognition 540
Interactions of Vowel Quality and Prosody in East Slavic 500
Vander's Renal Physiology第10版 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 内科学 物理 复合材料 催化作用 细胞生物学 无机化学 光电子学 物理化学 电极 基因
热门帖子
关注 科研通微信公众号,转发送积分 7055960
求助须知:如何正确求助?哪些是违规求助? 8719681
关于积分的说明 18459528
捐赠科研通 6577537
什么是DOI,文献DOI怎么找? 3121972
关于科研通互助平台的介绍 2212525
邀请新用户注册赠送积分活动 2097522