打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
第147课:Spark面试经典系列之Shuffle的性能调优问题

1、Shuffle原理和运行机制回顾
2、Shuffle性能调优

上面的流程中:
性能问题1:Mapper端的Cache:如果Cache设置的大小不恰当,可能产生大量磁盘的访问操作,因为要频繁地往本地磁盘写数据。
性能问题2:Reducer端的Business Logic运行的空间,如果说空间分配不够,业务逻辑运行的时候被迫把数据Spill到磁盘上面。一方面造成了业务逻辑处理的时候需要读写磁盘,另一方面也会造成不安全(数据读写故障)

看Log和Web UI上面的信息来判断是否需要调整上面的两个问题所涉及的参数。

针对问题1:Mapper端的性能调优参数是spark.shuffle.file.buffer,默认大小是32k,我们要根据数据量和并发量来适当调整该参数,尽量减少过于频繁的磁盘访问操作,开始是32k,后面可以调整成为64k,128k等等,需观察性能效果。
针对问题2:spark.shuffle.memoryFracton 默认大小是0.2,Reducer端的业务逻辑运行占用Executor内存大小的20%,一个额外的说明:很多公司的Executor中线程的并行度在5个左右,调整的时候可以从0.2调整为0.3,0.4等

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
Spark性能调优篇八之shuffle调优
Spark Shuffle原理、Shuffle操作问题解决和参数调优
Spark性能优化指南:高级篇
Spark提交参数说明和常见优化
驴行千里不洗沙尘,尚硅谷Spark性能调优教程发布
Spark技术内幕:Shuffle的性能调优,spark调优
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服