打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Spark性能调优篇八之shuffle调优

1 task的内存缓冲调节参数

2 reduce端聚合内存占比

spark.shuffle.file.buffer                     map task的内存缓冲调节参数,默认是32kb

spark.shuffle.memoryFraction          reduce端聚合内存占比,默认0.2

怎么判断在什么时候对这两个参数进行调整呢?

通过监控平台查看每个executor的task的shuffle write和shuffle read的运行次数,如果发现这个指标的运行次数比较多,那么就应该考虑这两个参数的调整了;这个参数调整有一个前提,spark.shuffle.file.buffer参数每次扩大一倍的方式进行调整,spark.shuffle.memoryFraction参数每次增加0.1进行调整。

shuffle产生大量文件

为了解决shuffle产生大量文件的问题,我们可以在map端输出的位置,将文件进行合并操作,即使用

spark.shuffle.consolidateFiles 参数来合并文件,具体的使用方式为

new SparkConf().set("spark.shuffle.consolidateFiles","true")

作者:z小赵
链接:https://www.jianshu.com/p/069c37aad295
来源:简书
著作权归作者所有。非商业转载请注明出处。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
Spark Shuffle原理、Shuffle操作问题解决和参数调优
Spark参数优化
Spark的两种核心Shuffle详解(建议收藏)
Spark技术内幕:Shuffle的性能调优,spark调优
Spark Shuffle详解
大数据IMF传奇行动绝密课程第25课:Spark Sort
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服