已入深夜,您辛苦了!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!祝你早点完成任务,早点休息,好梦!

A survey on missing data in machine learning

缺少数据 插补(统计学) 计算机科学 随机森林 数据挖掘 机器学习 k-最近邻算法 人工智能
作者
Tlamelo Emmanuel,Thabiso Maupong,Dimane Mpoeleng,Thabo Semong,Banyatsang Mphago,Oteng Tabona
出处
期刊:Journal of Big Data [Springer Nature]
卷期号:8 (1) 被引量:350
标识
DOI:10.1186/s40537-021-00516-9
摘要

Machine learning has been the corner stone in analysing and extracting information from data and often a problem of missing values is encountered. Missing values occur because of various factors like missing completely at random, missing at random or missing not at random. All these may result from system malfunction during data collection or human error during data pre-processing. Nevertheless, it is important to deal with missing values before analysing data since ignoring or omitting missing values may result in biased or misinformed analysis. In literature there have been several proposals for handling missing values. In this paper, we aggregate some of the literature on missing data particularly focusing on machine learning techniques. We also give insight on how the machine learning approaches work by highlighting the key features of missing values imputation techniques, how they perform, their limitations and the kind of data they are most suitable for. We propose and evaluate two methods, the k nearest neighbor and an iterative imputation method (missForest) based on the random forest algorithm. Evaluation is performed on the Iris and novel power plant fan data with induced missing values at missingness rate of 5% to 20%. We show that both missForest and the k nearest neighbor can successfully handle missing values and offer some possible future research direction.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
刚刚
居蓝完成签到 ,获得积分10
5秒前
南宫炽滔完成签到 ,获得积分10
9秒前
一号小玩家完成签到,获得积分10
9秒前
MOMOJI完成签到,获得积分20
14秒前
激昂的微笑完成签到,获得积分10
16秒前
科研通AI2S应助研究员2采纳,获得10
18秒前
小蜜峰儿完成签到 ,获得积分10
18秒前
25秒前
sue完成签到 ,获得积分10
26秒前
二牛发布了新的文献求助10
28秒前
MCCCCC_6发布了新的文献求助10
29秒前
jindui完成签到 ,获得积分10
29秒前
35秒前
脑洞疼应助科研通管家采纳,获得10
37秒前
天天快乐应助科研通管家采纳,获得10
37秒前
40秒前
he完成签到 ,获得积分10
40秒前
江沉晚吟完成签到 ,获得积分10
44秒前
zqzq0308发布了新的文献求助10
44秒前
zmx完成签到 ,获得积分10
44秒前
可靠白梅完成签到 ,获得积分10
54秒前
MCCCCC_6发布了新的文献求助10
58秒前
Yangqx007完成签到,获得积分10
59秒前
1分钟前
朴素的如豹完成签到,获得积分10
1分钟前
1分钟前
yxm完成签到 ,获得积分10
1分钟前
kk完成签到,获得积分10
1分钟前
平淡的发箍完成签到,获得积分10
1分钟前
1分钟前
LeoJun完成签到,获得积分10
1分钟前
叮咚雨发布了新的文献求助10
1分钟前
ldzjiao完成签到 ,获得积分10
1分钟前
落沧完成签到 ,获得积分10
1分钟前
lyne完成签到 ,获得积分10
1分钟前
577完成签到,获得积分10
1分钟前
难过的疾发布了新的文献求助10
1分钟前
1分钟前
1分钟前
高分求助中
The Young builders of New china : the visit of the delegation of the WFDY to the Chinese People's Republic 1000
юрские динозавры восточного забайкалья 800
English Wealden Fossils 700
麻省总医院内科手册(原著第8版) (美)马克S.萨巴蒂尼 500
Chen Hansheng: China’s Last Romantic Revolutionary 500
宽禁带半导体紫外光电探测器 388
COSMETIC DERMATOLOGY & SKINCARE PRACTICE 388
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 催化作用 物理化学 免疫学 量子力学 细胞生物学
热门帖子
关注 科研通微信公众号,转发送积分 3142628
求助须知:如何正确求助?哪些是违规求助? 2793538
关于积分的说明 7806775
捐赠科研通 2449789
什么是DOI,文献DOI怎么找? 1303425
科研通“疑难数据库(出版商)”最低求助积分说明 626871
版权声明 601314