Big Data Quality: A Quality Dimensions Evaluation

大数据 计算机科学 数据质量 数据挖掘 质量(理念) 采样(信号处理) 背景(考古学) 一致性(知识库) 数据完整性 数据科学 数据库 人工智能 工程类 哲学 公制(单位) 古生物学 运营管理 认识论 滤波器(信号处理) 生物 计算机视觉
作者
Ikbal Taleb,Hadeel T. El Kassabi,Mohamed Adel Serhani,Rachida Dssouli,Chafik Bouhaddioui
标识
DOI:10.1109/uic-atc-scalcom-cbdcom-iop-smartworld.2016.0122
摘要

Data is the most valuable asset companies are proud of. When its quality degrades, the consequences are unpredictable, can lead to complete wrong insights. In Big Data context, evaluating the data quality is challenging, must be done prior to any Big data analytics by providing some data quality confidence. Given the huge data size, its fast generation, it requires mechanisms, strategies to evaluate, assess data quality in a fast, efficient way. However, checking the Quality of Big Data is a very costly process if it is applied on the entire data. In this paper, we propose an efficient data quality evaluation scheme by applying sampling strategies on Big data sets. The Sampling will reduce the data size to a representative population samples for fast quality evaluation. The evaluation targeted some data quality dimensions like completeness, consistency. The experimentations have been conducted on Sleep disorder's data set by applying Big data bootstrap sampling techniques. The results showed that the mean quality score of samples is representative for the original data, illustrate the importance of sampling to reduce computing costs when Big data quality evaluation is concerned. We applied the Quality results generated as quality proposals on the original data to increase its quality.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
Morning晨发布了新的文献求助10
刚刚
落寞代亦完成签到,获得积分10
1秒前
dawuxiaohui发布了新的文献求助10
1秒前
迅速依风发布了新的文献求助10
1秒前
1秒前
SciGPT应助研友_EZ1aNZ采纳,获得10
4秒前
4秒前
fantec完成签到,获得积分10
4秒前
xyq发布了新的文献求助10
5秒前
yzheh完成签到 ,获得积分20
8秒前
英俊的铭应助clover112采纳,获得10
8秒前
今后应助fantec采纳,获得10
8秒前
8秒前
何禾完成签到,获得积分10
10秒前
Summerrrrui发布了新的文献求助10
10秒前
金金段完成签到,获得积分10
11秒前
科研通AI6.1应助feifei采纳,获得10
11秒前
dawuxiaohui完成签到,获得积分10
13秒前
汪宇发布了新的文献求助10
13秒前
顺利小蝴蝶完成签到,获得积分10
15秒前
科目三应助八百川采纳,获得10
16秒前
认真沅完成签到,获得积分10
16秒前
田様应助兰真纯洁采纳,获得10
16秒前
秋澄明完成签到,获得积分10
17秒前
18秒前
布洛芬完成签到,获得积分10
18秒前
大模型应助琪凯定理采纳,获得10
18秒前
19秒前
素笺生花完成签到,获得积分10
19秒前
顾矜应助不嘻嘻嘻采纳,获得10
20秒前
qq完成签到,获得积分10
20秒前
伶俐平凡完成签到,获得积分20
20秒前
21秒前
小明完成签到,获得积分10
22秒前
23秒前
会飞的生菜应助泷生采纳,获得10
23秒前
24秒前
25秒前
霸气凝云发布了新的文献求助10
25秒前
科研通AI6.2应助AGUI采纳,获得10
26秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Developing Genetic Editing Tools for Lysobacter 2000
卤化钙钛矿人工突触的研究 2000
Моделирование процессов самоорганизации в кристаллообразующих системах 1000
History of U.S. Space Surveillance and Satellite Cataloging 1000
Signals, Systems, and Signal Processing 610
Fundamentals of Pharmaceutical and Biologics Regulations: A Global Perspective, Second Edition 600
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6516515
求助须知:如何正确求助?哪些是违规求助? 8309548
关于积分的说明 17761941
捐赠科研通 5618871
什么是DOI,文献DOI怎么找? 2925502
邀请新用户注册赠送积分活动 1902508
关于科研通互助平台的介绍 1763678