1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        Spark3.0核心調(diào)優(yōu)參數(shù)小總結(jié)

        共 2771字,需瀏覽 6分鐘

         ·

        2021-12-28 21:50

        點(diǎn)擊上方藍(lán)色字體,選擇“設(shè)為星標(biāo)”
        回復(fù)”面試“獲取更多驚喜
        本文已經(jīng)加入「大數(shù)據(jù)成神之路PDF版」中提供下載。
        你可以關(guān)注公眾號(hào),后臺(tái)回復(fù):
        PDF?即可獲取。
        更多PDF下載可以參考:《重磅,大數(shù)據(jù)成神之路PDF可以分類下載啦!》

        Spark重點(diǎn)難點(diǎn)系列:

        基礎(chǔ)配置

        spark.executor.memory

        指定Executor memory,也就是Executor可用內(nèi)存上限

        spark.memory.offHeap.enabled

        堆外內(nèi)存啟用開關(guān)

        spark.memory.offHeap.size

        指定堆外內(nèi)存大小

        spark.memory.fraction

        堆內(nèi)內(nèi)存中,Spark緩存RDD和計(jì)算的比例

        spark.memory.storageFraction

        Spark緩存RDD的內(nèi)存占比,相應(yīng)的執(zhí)行內(nèi)存比例為1 - spark.memory.storageFraction

        spark.local.dir

        Spark指定的臨時(shí)文件目錄

        spark.cores.max

        一個(gè)Spark程序能夠給申請(qǐng)到的CPU核數(shù)

        spark.executor.cores

        單個(gè)Executor的核心數(shù)

        spark.task.cpus

        單個(gè)task能夠申請(qǐng)的cpu數(shù)量

        spark.default.parallelism

        默認(rèn)并行度

        spark.sql.shuffle.partitions

        Shuffle過程中的Reducer數(shù)量

        Shuffle配置

        spark.shuffle.file.buffer

        設(shè)置shuffle write任務(wù)的bufferedOutputStream的緩沖區(qū)大小。將數(shù)據(jù)寫入磁盤文件之前,將其寫入緩沖區(qū),然后在將緩沖區(qū)寫入磁盤后將其填充。

        spark.reducer.maxSizeInFlight

        該參數(shù)用于設(shè)置Shuffle read任務(wù)的buff緩沖區(qū)大小,該緩沖區(qū)決定一次可以拉取多少數(shù)據(jù)。

        spark.shuffle.sort.bypassMergeThreshold

        當(dāng)ShuffleManager為SortShuffleManager時(shí),如果shuffle read task的數(shù)量小于這個(gè)閾值(默認(rèn)是200),則shuffle write過程中不會(huì)進(jìn)行排序操作,而是直接按照未經(jīng)優(yōu)化的HashShuffleManager的方式去寫數(shù)據(jù),但是最后會(huì)將每個(gè)task產(chǎn)生的所有臨時(shí)磁盤文件都合并成一個(gè)文件,并會(huì)創(chuàng)建單獨(dú)的索引文件。

        Spark SQL配置

        spark.sql.adaptive.enabled

        Spark AQE開啟開關(guān)

        spark.sql.adaptive.coalescePartitions.enabled

        是否開啟合并小數(shù)據(jù)分區(qū),默認(rèn)開啟

        spark.sql.adaptive.advisoryPartitionSizeInBytes

        傾斜數(shù)據(jù)分區(qū)拆分,小數(shù)據(jù)分區(qū)合并優(yōu)化時(shí),建議的分區(qū)大小

        spark.sql.adaptive.coalescePartitions.minPartitionNum

        合并后最小的分區(qū)數(shù)

        spark.sql.adaptive.fetchShuffleBlocksInBatch

        是否批量拉取blocks,而不是一個(gè)個(gè)的去取。給同一個(gè)map任務(wù)一次性批量拉取blocks可以減少IO提高性能

        spark.sql.adaptive.skewJoin.enabled

        自動(dòng)傾斜處理,處理sort-merge join中的傾斜數(shù)據(jù)

        spark.sql.adaptive.skewJoin.skewedPartitionFactor

        判斷分區(qū)是否是傾斜分區(qū)的比例。

        當(dāng)一個(gè) partition 的 size 大小大于該值(所有 parititon 大小的中位數(shù))且大于spark.sql.adaptive.skewedPartitionSizeThreshold,或者 parition 的條數(shù)大于該值(所有 parititon 條數(shù)的中位數(shù))且大于 spark.sql.adaptive.skewedPartitionRowCountThreshold,才會(huì)被當(dāng)做傾斜的 partition 進(jìn)行相應(yīng)的處理。默認(rèn)值為 10

        spark.sql.adaptive.skewJoin.skewedPartitionThresholdInBytes

        判斷是否傾斜分區(qū)的最低閾值。


        《大數(shù)據(jù)成神之路》正在全面PDF化。
        你只需要關(guān)注并在后臺(tái)回復(fù)「PDF」就可以看到阿里云盤下載鏈接了!
        另外我把發(fā)表過的文章按照體系全部整理好了?,F(xiàn)在你可以在后臺(tái)方便的進(jìn)行查找:
        電子版把他們分類做成了下面這個(gè)樣子,并且放在了阿里云盤提供下載。
        我們點(diǎn)開一個(gè)文件夾后:
        如果這個(gè)文章對(duì)你有幫助,不要忘記?「在看」?「點(diǎn)贊」?「收藏」?三連啊喂!
        Hi,我是王知無,一個(gè)大數(shù)據(jù)領(lǐng)域的原創(chuàng)作者。?
        放心關(guān)注我,獲取更多行業(yè)的一手消息。


        八千里路云和月 | 從零到大數(shù)據(jù)專家學(xué)習(xí)路徑指南
        互聯(lián)網(wǎng)最壞的時(shí)代可能真的來了
        我在B站讀大學(xué),大數(shù)據(jù)專業(yè)
        我們?cè)趯W(xué)習(xí)Flink的時(shí)候,到底在學(xué)習(xí)什么?
        193篇文章暴揍Flink,這個(gè)合集你需要關(guān)注一下
        Flink生產(chǎn)環(huán)境TOP難題與優(yōu)化,阿里巴巴藏經(jīng)閣YYDS
        Flink CDC我吃定了耶穌也留不住他!| Flink CDC線上問題小盤點(diǎn)
        我們?cè)趯W(xué)習(xí)Spark的時(shí)候,到底在學(xué)習(xí)什么?
        在所有Spark模塊中,我愿稱SparkSQL為最強(qiáng)!
        硬剛Hive | 4萬字基礎(chǔ)調(diào)優(yōu)面試小總結(jié)
        數(shù)據(jù)治理方法論和實(shí)踐小百科全書
        標(biāo)簽體系下的用戶畫像建設(shè)小指南
        4萬字長(zhǎng)文 | ClickHouse基礎(chǔ)&實(shí)踐&調(diào)優(yōu)全視角解析
        【面試&個(gè)人成長(zhǎng)】2021年過半,社招和校招的經(jīng)驗(yàn)之談
        大數(shù)據(jù)方向另一個(gè)十年開啟 |《硬剛系列》第一版完結(jié)
        我寫過的關(guān)于成長(zhǎng)/面試/職場(chǎng)進(jìn)階的文章
        當(dāng)我們?cè)趯W(xué)習(xí)Hive的時(shí)候在學(xué)習(xí)什么?「硬剛Hive續(xù)集」
        瀏覽 47
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            大bbwbbw撒尿bbw撒尿 | 99热在线观看 | 天堂资源网 | 欧美性爱人人操 | 潘金莲一级乳片 | 国产免费成人视频 | 91黄视频下载 | 欧美变态口味重另类hd | 91一级 | 性感美女日逼 |