您当前的位置: www.5098.com > www.5098.com > 正文
1. 概述 正在开辟完Spark功课之后
浏览次数:发布时间:2019-10-30

  spark功课中,各个stage的task的数量,也就代表了spark功课正在各个阶段stage的并行度!

  1. 概述 正在开辟完Spark功课之后,就该为功课设置装备摆设合适的资本了。Spark的资本参数,根基都能够正在spark-...

  1、task数量,至多设置成取spark Application 的总cpu core 数量不异(最环境,150个core,分派150task,一路运转,差不多统一时间运转完毕)保举,task数量,设置成spark Application 总cpu core数量的2~3倍 ,好比150个cpu core ,根基设置 task数量为 300~ 500. 取环境分歧的,有些task 会运转快一点,好比50s 就完了,有些task 可能会慢一点,要一分半才运转完,所以若是你的task数量,刚好设置的跟cpu core 数量不异,可能会导致资本的华侈,由于 好比150task ,10个先运转完了,残剩140个还正在运转,可是这个时候,就有10个cpu core空闲出来了,导致华侈。若是设置2~3倍,那么一个task运转完当前,别的一个task顿时补上来,尽量让cpu core不要空闲。同时尽量提拔spark运转效率和速度。提拔机能。

  当分派完所能分派的最大资本了,然后对应资本去调理法式的并行度,若是并行度没有取资本相婚配,那么导致你分派下去的资本都华侈掉了。同时并交运转,还能够让每个task要处置的数量变少(很简单的道理。合理设置并行度,能够充实操纵集群资本,削减每个task处置数据量,而添加机能加速运转速度。)

  3、若是读取的数据正在HDFS上,添加block数,默认环境下split取block是一对一的,而split又取RDD中的partition对应,所以添加了block数,也就提高了并行度。

  1. 概述 正在开辟完Spark功课之后,就该为功课设置装备摆设合适的资本了。Spark的资本参数,根基都能够正在spark-...

  媒介 正在大数据计较范畴,Spark曾经成为了越来越风行、越来越受欢送的计较平台之一。Spark的功能涵盖了大数据领...

  Application 任何一个stage运转的时候,都有总数150个cpu core ,能够并交运转。可是,你现正在只要100个task ,平均分派一下,每个executor 分派到2个task,ok,那么同时正在运转的task,只要100个task,每个executor 只会并交运转 2个task。 每个executor 剩下的一个cpu core 就华侈掉了!你的资本,虽然分派充脚了,可是问题是, 并行度没有取资本相婚配,导致你分派下去的资本都华侈掉了。合理的并行度的设置,该当要设置的脚够大,大到能够完全合理的操纵你的集群资本; 好比的例子,总共集群有150个cpu core ,能够并交运转150个task。那么你就该当将你的Application 的并行度,至多设置成150个,才能完全无效的操纵你的集群资本,让150个task ,并行施行,并且task添加到150个当前,即能够同时并交运转,还能够让每个task要处置的数量变少; 好比总共 150G 的数据要处置, 若是是100个task ,每个task 要计较1.5G的数据。 现正在添加到150个task,每个task只需处置1G数据。

  一、布景 Spark并行度指的是什么? 并行度:其实就是指的是,Spark功课中,各个stage的task数量,也...

  媒介 正在大数据计较范畴,Spark曾经成为了越来越风行、越来越受欢送的计较平台之一。Spark的功能涵盖了大数据领...



友情链接:
Copyright 2019-2022 http://www.cnlbxxw.cn 版权所有 未经协议授权禁止转载