国产18女人水真多免费看,美女av在线播放,亚洲国产精彩视频,亚洲小视频在线播放,www.伊人久久,男人和女人插插,操逼视屏,亚洲AV无码精品

hive on spark 性能遠(yuǎn)比hive on mr 要好，而且提供了一樣的功能。用戶的sql無需修改就可以直接運(yùn)行于hive on spark。udf函數(shù)也是全部支持。

本文主要是想講hive on spark 在運(yùn)行于yarn模式的情況下如何調(diào)優(yōu)。

下文舉例講解的yarn節(jié)點(diǎn)機(jī)器配置，假設(shè)有32核，120GB內(nèi)存。

yarn配置調(diào)優(yōu)

yarn.nodemanager.resource.cpu-vcores
yarn.nodemanager.resource.memory-mb

這兩個(gè)參數(shù)決定這集群資源管理器能夠有多少資源用于運(yùn)行yarn上的任務(wù)。這兩個(gè)參數(shù)的值是由機(jī)器的配置及同時(shí)在機(jī)器上運(yùn)行的其它進(jìn)程共同決定。本文假設(shè)僅有hdfs的datanode和yarn的nodemanager運(yùn)行于該節(jié)點(diǎn)。

1. 配置cores

基本配置是datanode和nodemanager各一個(gè)核，操作系統(tǒng)兩個(gè)核，然后剩下28核配置作為yarn資源。也即是

yarn.nodemanager.resource.cpu-vcores=28

2. 配置內(nèi)存

對(duì)于內(nèi)存，預(yù)留20GB給操作系統(tǒng)，datanode，nodemanager，剩余100GB作為yarn資源。也即是

yarn.nodemanager.resource.memory-mb=100*1024。

Spark配置

給yarn分配資源以后，那就要想著spark如何使用這些資源了，主要配置對(duì)象：

execurtor 和driver內(nèi)存，executro配額，并行度。

1. executor內(nèi)存

設(shè)置executor內(nèi)存需要考慮如下因素:

executor內(nèi)存越多，越能為更多的查詢提供map join的優(yōu)化。由于垃圾回收的壓力會(huì)導(dǎo)致開銷增加。
某些情況下hdfs的客戶端不能很好的處理并發(fā)寫入，所以過多的核心可能會(huì)導(dǎo)致競爭。

為了最大化使用core，建議將core設(shè)置為4，5，6（多核心會(huì)導(dǎo)致并發(fā)問題，所以寫代碼的時(shí)候尤其是靜態(tài)的鏈接等要考慮并發(fā)問題）具體分配核心數(shù)要結(jié)合yarn所提供的核心數(shù)。由于本文中涉及到的node節(jié)點(diǎn)是28核，那么很明顯分配為4的化可以被整除，spark.executor.cores設(shè)置為4 不會(huì)有多余的核剩下,設(shè)置為5，6都會(huì)有core剩余。spark.executor.cores=4，由于總共有28個(gè)核，那么最大可以申請(qǐng)的executor數(shù)是7?？們?nèi)存處以7，也即是 100/7，可以得到每個(gè)executor約14GB內(nèi)存。

要知道 spark.executor.memory 和spark.executor.memoryOverhead 共同決定著 executor內(nèi)存。建議 spark.executor.memoryOverhead站總內(nèi)存的 15%-20%。那么最終 spark.executor.memoryOverhead=2 G 和spark.executor.memory=12 G

根據(jù)上面的配置的化，每個(gè)主機(jī)就可以申請(qǐng)7個(gè)executor，每個(gè)executor可以運(yùn)行4個(gè)任務(wù)，每個(gè)core一個(gè)task。那么每個(gè)task的平均內(nèi)存是 14/4 = 3.5GB。在executor運(yùn)行的task共享內(nèi)存。其實(shí)，executor內(nèi)部是用newCachedThreadPool運(yùn)行task的。

確保 spark.executor.memoryOverhead和 spark.executor.memory的和不超過yarn.scheduler.maximum-allocation-mb

2. driver內(nèi)存

對(duì)于drvier的內(nèi)存配置，當(dāng)然也包括兩個(gè)參數(shù)。

spark.driver.memoryOverhead 每個(gè)driver能從yarn申請(qǐng)的堆外內(nèi)存的大小。
spark.driver.memory 當(dāng)運(yùn)行hive on spark的時(shí)候，每個(gè)spark driver能申請(qǐng)的最大jvm 堆內(nèi)存。該參數(shù)結(jié)合 spark.driver.memoryOverhead共同決定著driver的內(nèi)存大小。

driver的內(nèi)存大小并不直接影響性能，但是也不要job的運(yùn)行受限于driver的內(nèi)存. 這里給出spark driver內(nèi)存申請(qǐng)的方案，假設(shè)yarn.nodemanager.resource.memory-mb是 X。

driver內(nèi)存申請(qǐng)12GB，假設(shè) X > 50GB
driver內(nèi)存申請(qǐng) 4GB，假設(shè) 12GB < X <50GB
driver內(nèi)存申請(qǐng)1GB,假設(shè) 1GB < X < 12 GB
driver內(nèi)存申請(qǐng)256MB，假設(shè) X < 1GB

這些數(shù)值是 spark.driver.memory和 spark.driver.memoryOverhead內(nèi)存的總和。對(duì)外內(nèi)存站總內(nèi)存的10%-15%。假設(shè) yarn.nodemanager.resource.memory-mb=100*1024MB,那么driver內(nèi)存設(shè)置為12GB，此時(shí) spark.driver.memory=10.5gb和spark.driver.memoryOverhead=1.5gb

注意，資源多少直接對(duì)應(yīng)的是數(shù)據(jù)量的大小。所以要結(jié)合資源和數(shù)據(jù)量進(jìn)行適當(dāng)縮減和增加。

3. executor數(shù)

executor的數(shù)目是由每個(gè)節(jié)點(diǎn)運(yùn)行的executor數(shù)目和集群的節(jié)點(diǎn)數(shù)共同決定。如果你有四十個(gè)節(jié)點(diǎn)，那么hive可以使用的最大executor數(shù)就是 280(40*7). 最大數(shù)目可能比這個(gè)小點(diǎn)，因?yàn)閐river也會(huì)消耗1core和12GB。

當(dāng)前假設(shè)是沒有yarn應(yīng)用在跑。

Hive性能與用于運(yùn)行查詢的executor數(shù)量直接相關(guān)。但是，不通查詢還是不通。通常，性能與executor的數(shù)量成比例。例如，查詢使用四個(gè)executor大約需要使用兩個(gè)executor的一半時(shí)間。但是，性能在一定數(shù)量的executor中達(dá)到峰值，高于此值時(shí)，增加數(shù)量不會(huì)改善性能并且可能產(chǎn)生不利影響。

在大多數(shù)情況下，使用一半的集群容量（executor數(shù)量的一半）可以提供良好的性能。為了獲得最佳性能，最好使用所有可用的executor。例如，設(shè)置spark.executor.instances = 280。對(duì)于基準(zhǔn)測(cè)試和性能測(cè)量，強(qiáng)烈建議這樣做。

4. 動(dòng)態(tài)executor申請(qǐng)

雖然將spark.executor.instances設(shè)置為最大值通常可以最大限度地提高性能，但不建議在多個(gè)用戶運(yùn)行Hive查詢的生產(chǎn)環(huán)境中這樣做。避免為用戶會(huì)話分配固定數(shù)量的executor，因?yàn)槿绻鹐xecutor空閑，executor不能被其他用戶查詢使用。在生產(chǎn)環(huán)境中，應(yīng)該好好計(jì)劃executor分配，以允許更多的資源共享。

Spark允許您根據(jù)工作負(fù)載動(dòng)態(tài)擴(kuò)展分配給Spark應(yīng)用程序的集群資源集。要啟用動(dòng)態(tài)分配，請(qǐng)按照動(dòng)態(tài)分配中的步驟進(jìn)行操作。除了在某些情況下，強(qiáng)烈建議啟用動(dòng)態(tài)分配。

5. 并行度

要使可用的executor得到充分利用，必須同時(shí)運(yùn)行足夠的任務(wù)（并行）。在大多數(shù)情況下，Hive會(huì)自動(dòng)確定并行度，但也可以在調(diào)優(yōu)并發(fā)度方面有一些控制權(quán)。在輸入端，map任務(wù)的數(shù)量等于輸入格式生成的split數(shù)。對(duì)于Hive on Spark，輸入格式為CombineHiveInputFormat，它可以根據(jù)需要對(duì)基礎(chǔ)輸入格式生成的split進(jìn)行分組?？梢愿玫乜刂苨tage邊界的并行度。調(diào)整hive.exec.reducers.bytes.per.reducer以控制每個(gè)reducer處理的數(shù)據(jù)量，Hive根據(jù)可用的executor，執(zhí)行程序內(nèi)存，以及其他因素來確定最佳分區(qū)數(shù)。實(shí)驗(yàn)表明，只要生成足夠的任務(wù)來保持所有可用的executor繁忙，Spark就比MapReduce對(duì)hive.exec.reducers.bytes.per.reducer指定的值敏感度低。為獲得最佳性能，請(qǐng)為該屬性選擇一個(gè)值，以便Hive生成足夠的任務(wù)以完全使用所有可用的executor。

hive配置

Hive on spark 共享了很多hive性能相關(guān)的配置。可以像調(diào)優(yōu)hive on mapreduce一樣調(diào)優(yōu)hive on spark。然而，hive.auto.convert.join.noconditionaltask.size是基于統(tǒng)計(jì)信息將基礎(chǔ)join轉(zhuǎn)化為map join的閾值，可能會(huì)對(duì)性能產(chǎn)生重大影響。盡管該配置可以用hive on mr和hive on spark，但是兩者的解釋不同。

數(shù)據(jù)的大小有兩個(gè)統(tǒng)計(jì)指標(biāo)：

totalSize- 數(shù)據(jù)在磁盤上的近似大小。
rawDataSize- 數(shù)據(jù)在內(nèi)存中的近似大小。

hive on mr用的是totalSize。hive on spark使用的是rawDataSize。由于可能存在壓縮和序列化，這兩個(gè)值會(huì)有較大的差別。對(duì)于hive on spark 需要將 hive.auto.convert.join.noconditionaltask.size指定為更大的值，才能將與hive on mr相同的join轉(zhuǎn)化為map join。

可以增加此參數(shù)的值，以使地圖連接轉(zhuǎn)換更具兇猛。將common join 轉(zhuǎn)換為 map join 可以提高性能。如果此值設(shè)置得太大，則來自小表的數(shù)據(jù)將使用過多內(nèi)存，任務(wù)可能會(huì)因內(nèi)存不足而失敗。根據(jù)群集環(huán)境調(diào)整此值。

通過參數(shù) hive.stats.collect.rawdatasize 可以控制是否收集 rawDataSize 統(tǒng)計(jì)信息。

對(duì)于hiveserver2，建議再配置兩個(gè)額外的參數(shù): hive.stats.fetch.column.stats=true 和 hive.optimize.index.filter=true.

Hive性能調(diào)優(yōu)通常建議使用以下屬性：


hive.optimize.reducededuplication.min.reducer=4hive.optimize.reducededuplication=truehive.merge.mapfiles=truehive.merge.mapredfiles=falsehive.merge.smallfiles.avgsize=16000000hive.merge.size.per.task=256000000hive.merge.sparkfiles=truehive.auto.convert.join=truehive.auto.convert.join.noconditionaltask=truehive.auto.convert.join.noconditionaltask.size=20M(might need to increase for Spark, 200M)hive.optimize.bucketmapjoin.sortedmerge=falsehive.map.aggr.hash.percentmemory=0.5hive.map.aggr=truehive.optimize.sort.dynamic.partition=falsehive.stats.autogather=truehive.stats.fetch.column.stats=truehive.compute.query.using.stats=truehive.limit.pushdown.memory.usage=0.4 (MR and Spark)hive.optimize.index.filter=truehive.exec.reducers.bytes.per.reducer=67108864hive.smbjoin.cache.rows=10000hive.fetch.task.conversion=morehive.fetch.task.conversion.threshold=1073741824hive.optimize.ppd=true

預(yù)啟動(dòng)YARN容器

在開始新會(huì)話后提交第一個(gè)查詢時(shí)，在查看查詢開始之前可能會(huì)遇到稍長的延遲。還會(huì)注意到，如果再次運(yùn)行相同的查詢，它的完成速度比第一個(gè)快得多。

Spark執(zhí)行程序需要額外的時(shí)間來啟動(dòng)和初始化yarn上的Spark，這會(huì)導(dǎo)致較長的延遲。此外，Spark不會(huì)等待所有executor在啟動(dòng)作業(yè)之前全部啟動(dòng)完成，因此在將作業(yè)提交到群集后，某些executor可能仍在啟動(dòng)。但是，對(duì)于在Spark上運(yùn)行的作業(yè)，作業(yè)提交時(shí)可用executor的數(shù)量部分決定了reducer的數(shù)量。當(dāng)就緒executor的數(shù)量未達(dá)到最大值時(shí)，作業(yè)可能沒有最大并行度。這可能會(huì)進(jìn)一步影響第一個(gè)查詢的性能。

在用戶較長期會(huì)話中，這個(gè)額外時(shí)間不會(huì)導(dǎo)致任何問題，因?yàn)樗辉诘谝淮尾樵儓?zhí)行時(shí)發(fā)生。然而，諸如Oozie發(fā)起的Hive工作之類的短期繪畫可能無法實(shí)現(xiàn)最佳性能。

為減少啟動(dòng)時(shí)間，可以在作業(yè)開始前啟用容器預(yù)熱。只有在請(qǐng)求的executor準(zhǔn)備就緒時(shí)，作業(yè)才會(huì)開始運(yùn)行。這樣，在reduce那一側(cè)不會(huì)減少短會(huì)話的并行性。

要啟用預(yù)熱功能，請(qǐng)?jiān)诎l(fā)出查詢之前將hive.prewarm.enabled設(shè)置為true。還可以通過設(shè)置hive.prewarm.numcontainers來設(shè)置容器數(shù)量。默認(rèn)值為10。

預(yù)熱的executor的實(shí)際數(shù)量受spark.executor.instances（靜態(tài)分配）或spark.dynamicAllocation.maxExecutors（動(dòng)態(tài)分配）的值限制。hive.prewarm.numcontainers的值不應(yīng)超過分配給用戶會(huì)話的值。

注意：預(yù)熱需要幾秒鐘，對(duì)于短會(huì)話來說是一個(gè)很好的做法，特別是如果查詢涉及reduce階段。但是，如果hive.prewarm.numcontainers的值高于群集中可用的值，則該過程最多可能需要30秒。請(qǐng)謹(jǐn)慎使用預(yù)熱。

--end--


掃描下方二維碼
添加好友，備注【交流】
可私聊交流，也可進(jìn)資源豐富學(xué)習(xí)群

更文不易，點(diǎn)個(gè)“在看”支持一下??

国产秋霞理论久久久电影-婷婷色九月综合激情丁香-欧美在线观看乱妇视频-精品国avA久久久久久久-国产乱码精品一区二区三区亚洲人-欧美熟妇一区二区三区蜜桃视频

【技術(shù)難點(diǎn)】hive on spark 調(diào)優(yōu)