A Study of K-Nearest Neighbour as an Imputation Method.

插补(统计学) 缺少数据 计算机科学 数据挖掘 知识抽取 数据质量 k-最近邻算法 数据集 人工智能 最近的邻居 机器学习 工程类 公制(单位) 运营管理
作者
Gustavo E. A. P. A. Batista,Maria Carolina Monard
摘要

Data quality is a major concern in Machine Learning and other correlated areas such as Knowledge Discovery from Databases (KDD). As most Machine Learning algorithms induce knowledge strictly from data, the quality of the knowledge extracted is largely determined by the quality of the underlying data. One relevant problem in data quality is the presence of missing data. Despite the frequent occurrence of missing data, many Machine Learning algorithms handle missing data in a rather naive way. Missing data treatment should be carefully thought, otherwise bias might be introduced into the knowledge induced. In this work, we analyse the use of the k-nearest neighbour as an imputation method. Imputation is a term that denotes a procedure that replaces the missing values in a data set by some plausible values. Our analysis indicates that missing data imputation based on the k-nearest neighbour algorithm can outperform the internal methods used by C4.5 and CN2 to treat missing data.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
小蘑菇应助wztin采纳,获得10
刚刚
www完成签到,获得积分20
1秒前
张博雅完成签到,获得积分10
1秒前
1秒前
Johan发布了新的文献求助10
2秒前
ssslls发布了新的文献求助10
2秒前
打打应助李明晓采纳,获得10
2秒前
李超发布了新的文献求助10
2秒前
3秒前
科研通AI6.1应助Running采纳,获得10
3秒前
绚丽多彩的灰完成签到,获得积分10
3秒前
cccc1111发布了新的文献求助10
4秒前
5秒前
完美世界应助seven采纳,获得10
6秒前
健忘冰蝶应助观澜采纳,获得10
6秒前
微光熠发布了新的文献求助10
6秒前
7秒前
7秒前
7秒前
Copyright应助大可不必采纳,获得10
7秒前
烟花应助艺艺采纳,获得10
7秒前
曹年跃完成签到,获得积分10
7秒前
星辰大海应助励志小薛采纳,获得10
7秒前
8秒前
芋头读文献完成签到,获得积分10
8秒前
斯文败类应助热心乐驹采纳,获得15
8秒前
讲实话完成签到,获得积分10
8秒前
8秒前
桐桐应助陶醉的灵枫采纳,获得10
9秒前
Owen应助stargazer采纳,获得10
9秒前
ACCEPT发布了新的文献求助30
10秒前
CFD应助ricardo采纳,获得10
10秒前
万能图书馆应助黎洱采纳,获得10
11秒前
伶舟行发布了新的文献求助10
11秒前
姜姜发布了新的文献求助50
11秒前
二胖完成签到,获得积分10
11秒前
魔幻的舞蹈完成签到 ,获得积分10
11秒前
赵博发布了新的文献求助10
11秒前
jocelyn发布了新的文献求助10
11秒前
救救我完成签到,获得积分10
11秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Cronologia da história de Macau 5000
Prompt Engineering for Clinicians: Harnessing AI in Everyday Medical Practice 600
Electrode Potentials 550
Trees of tropical Asia : an illustrated guide to diversity 500
Handbook of Luminescence Dating 500
Safety Pharmacology 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 计算机科学 化学工程 生物化学 物理 内科学 复合材料 催化作用 光电子学 物理化学 电极 细胞生物学 基因 遗传学
热门帖子
关注 科研通微信公众号,转发送积分 6977776
求助须知:如何正确求助?哪些是违规求助? 8656844
关于积分的说明 18353826
捐赠科研通 6439219
什么是DOI,文献DOI怎么找? 3091936
关于科研通互助平台的介绍 2147960
邀请新用户注册赠送积分活动 2068389