已入深夜,您辛苦了!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!祝你早点完成任务,早点休息,好梦!

BSDP: A Novel Balanced Spark Data Partitioner

SPARK(编程语言) 计算机科学 歪斜 分拆(数论) 大数据 并行计算 调度(生产过程) 分布式计算 数据挖掘 数学优化 电信 数学 组合数学 程序设计语言
作者
Aibo Song,Bowen Peng,Jingyi Qiu,Yingying Xue,Mingyang Du
标识
DOI:10.1109/icpads53394.2021.00075
摘要

As a memory-based distributed big data computing framework, Spark has been widely used in big data processing systems. However, during the execution of Spark, due to the imbalance of input data distribution and the shortage of existing data partitioners in Spark, it is easy to cause partition skew problem and reduce the execution efficiency of Spark. Aiming at this problem, this paper proposes a balanced Spark data partitioner called BSDP (Balanced Spark Data Partitioner). By deeply analyzing the partitioning characteristics of Shuffle intermediate data, the Spark Shuffle intermediate data equalization partitioning model is established. The model aims to minimize the partition skew and find a Shuffle intermediate data equalization partitioning strategy. Based on the model, this paper designs and implements a data equalization partitioning algorithm of BSDP. This algorithm transforms the Shuffle intermediate data equalization partitioning problem into a classic List-Scheduling task scheduling problem, effectively realizes the balanced partitioning of Shuffle intermediate data. The experiment verifies that the BSDP can effectively realize the balanced partitioning of the Shuffle intermediate data and improve the execution efficiency of Spark.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
han发布了新的文献求助10
2秒前
Hello应助威武以筠采纳,获得20
4秒前
大个应助火星上香菇采纳,获得10
5秒前
柏儿完成签到,获得积分10
5秒前
wjwqz完成签到,获得积分10
5秒前
6秒前
飞飞发布了新的文献求助10
6秒前
Owen应助..采纳,获得30
7秒前
整齐的惮完成签到 ,获得积分10
7秒前
yuaner发布了新的文献求助10
13秒前
15秒前
zpp完成签到,获得积分10
15秒前
搜集达人应助Capybara采纳,获得10
18秒前
18秒前
威武以筠发布了新的文献求助20
21秒前
26秒前
28秒前
erin发布了新的文献求助10
30秒前
鄂海菡完成签到,获得积分10
31秒前
Capybara发布了新的文献求助10
32秒前
充电宝应助Han采纳,获得10
33秒前
StevenW发布了新的文献求助10
35秒前
37秒前
Owen应助狮子清明尊采纳,获得10
37秒前
打打应助zpp采纳,获得10
37秒前
37秒前
NexusExplorer应助坦率怀梦采纳,获得10
38秒前
牧秋妈妈完成签到 ,获得积分10
39秒前
俊逸的刺猬完成签到,获得积分10
39秒前
Sunshine发布了新的文献求助10
41秒前
42秒前
xxxxxxlp发布了新的文献求助10
43秒前
Sunshine完成签到,获得积分0
46秒前
orixero应助Capybara采纳,获得10
49秒前
科研小白关注了科研通微信公众号
50秒前
祁絢发布了新的文献求助10
50秒前
机智的乌完成签到 ,获得积分10
50秒前
YU完成签到 ,获得积分10
51秒前
小蘑菇应助coco采纳,获得10
54秒前
1分钟前
高分求助中
【此为提示信息,请勿应助】请按要求发布求助,避免被关 20000
Production Logging: Theoretical and Interpretive Elements 3000
J'AI COMBATTU POUR MAO // ANNA WANG 660
Izeltabart tapatansine - AdisInsight 600
Introduction to Comparative Public Administration Administrative Systems and Reforms in Europe, Third Edition 3rd edition 500
Geotechnical characterization of slope movements 500
Individualized positive end-expiratory pressure in laparoscopic surgery: a randomized controlled trial 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3753446
求助须知:如何正确求助?哪些是违规求助? 3297096
关于积分的说明 10097237
捐赠科研通 3011786
什么是DOI,文献DOI怎么找? 1654224
邀请新用户注册赠送积分活动 788654
科研通“疑难数据库(出版商)”最低求助积分说明 752962