1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        超算網(wǎng)絡(luò)演變:從TCP到RDMA,從IB到RoCE

        共 4526字,需瀏覽 10分鐘

         ·

        2021-10-02 13:11



        隨著 5G、大數(shù)據(jù)、物聯(lián)網(wǎng)、AI 等新技術(shù)融入人類社會(huì)的方方面面,可以預(yù)見(jiàn),在未來(lái)二三十年間人類將邁入基于數(shù)字世界的萬(wàn)物感知、萬(wàn)物互聯(lián)、萬(wàn)物智能的智能社會(huì)。數(shù)據(jù)中心算力成為新的生產(chǎn)力,數(shù)據(jù)中心量綱也從原有的資源規(guī)模向算力規(guī)模轉(zhuǎn)變,算力中心的概念被業(yè)界廣泛接受。數(shù)據(jù)中心向算力中心演進(jìn),網(wǎng)絡(luò)是數(shù)據(jù)中心大算力的重要組成部分,提升網(wǎng)絡(luò)性能,可顯著改進(jìn)數(shù)據(jù)中心算力能效比。

        為了提升算力,業(yè)界在多條路徑上持續(xù)演進(jìn)。單核芯片的工藝提升目前止步于3nm;通過(guò)疊加多核提升算力,隨著核數(shù)的增加,單位算力功耗也會(huì)顯著增長(zhǎng),當(dāng)128 核增至 256 核時(shí),總算力水平無(wú)法提升 1.2 倍。計(jì)算單元的工藝演進(jìn)已經(jīng)逼近基線,每 18 個(gè)月翻一番的摩爾定律即將失效,為了滿足大算力的需求,HPC 高性能計(jì)算成為常態(tài)。隨著算力需求的不斷增長(zhǎng),從 P 級(jí)向 E 級(jí)演進(jìn),計(jì)算集群規(guī)模不斷擴(kuò)大,對(duì)互聯(lián)網(wǎng)絡(luò)性能要求越來(lái)越高,計(jì)算和網(wǎng)絡(luò)深度融合成為趨勢(shì)。


        HPC(高性能計(jì)算)是指利用聚集起來(lái)的計(jì)算能力來(lái)處理標(biāo)準(zhǔn)工作站無(wú)法完成的科研、工業(yè)界最復(fù)雜的科學(xué)計(jì)算問(wèn)題,包括仿真、建模和渲染等。由于需要大量的運(yùn)算,一臺(tái)通用計(jì)算機(jī)無(wú)法在合理的時(shí)間內(nèi)完成工作,或者由于所需的數(shù)據(jù)量過(guò)大而可用的資源有限,導(dǎo)致根本無(wú)法執(zhí)行計(jì)算,此時(shí)一種方式是通過(guò)使用專門(mén)或高端的硬件進(jìn)行處理,但其性能往往依然很難達(dá)到要求同時(shí)較為昂貴。目前業(yè)界使用較多的方式是將多個(gè)單元的計(jì)算能力進(jìn)行整合,將數(shù)據(jù)和運(yùn)算相應(yīng)地分布到多個(gè)單元中,從而有效地克服這些限制。

        HPC 高性能計(jì)算的計(jì)算節(jié)點(diǎn)之間交互對(duì)網(wǎng)絡(luò)性能的要求也是不同的,大致可以分為三類典型場(chǎng)景:

        • 松耦合計(jì)算場(chǎng)景:在松耦合場(chǎng)景中,計(jì)算節(jié)點(diǎn)之間對(duì)于彼此信息的相互依賴程度較低,網(wǎng)絡(luò)性能要求相對(duì)較低。一般金融風(fēng)險(xiǎn)評(píng)估、遙感與測(cè)繪、分子動(dòng)力學(xué)等業(yè)務(wù)屬于松耦合場(chǎng)景。該場(chǎng)景對(duì)于網(wǎng)絡(luò)性能要求相對(duì)較低。
        • 緊耦合場(chǎng)景:緊耦合場(chǎng)景中,對(duì)于各計(jì)算節(jié)點(diǎn)間彼此工作的協(xié)調(diào)、計(jì)算的同步以及信息的高速傳輸有很強(qiáng)的依賴性。一般電磁仿真、流體動(dòng)力學(xué)和汽車碰撞等場(chǎng)景屬于緊耦合場(chǎng)景。該場(chǎng)景對(duì)網(wǎng)絡(luò)時(shí)延要求極高,需要提供低時(shí)延網(wǎng)絡(luò)。
        • 數(shù)據(jù)密集型計(jì)算場(chǎng)景:在數(shù)據(jù)密集型計(jì)算場(chǎng)景中,其特點(diǎn)是計(jì)算節(jié)點(diǎn)需要處理大量的數(shù)據(jù),并在計(jì)算過(guò)程中產(chǎn)生大量的中間數(shù)據(jù)。一般氣象預(yù)報(bào)、基因測(cè)序、圖形渲染和能源勘探等屬于數(shù)據(jù)密集型計(jì)算場(chǎng)景。由于該場(chǎng)景下計(jì)算節(jié)點(diǎn)處理大量數(shù)據(jù)的同時(shí)又產(chǎn)生了大量中間數(shù)據(jù),所以該場(chǎng)景要求提供高吞吐的網(wǎng)絡(luò),同時(shí)對(duì)于網(wǎng)絡(luò)時(shí)延也有一定要求。

        總結(jié)一下 HPC 高性能計(jì)算對(duì)網(wǎng)絡(luò)的訴求,高吞吐和低時(shí)延成為兩個(gè)重要的關(guān)鍵詞。同時(shí)為了實(shí)現(xiàn)高吞吐和低時(shí)延,業(yè)界一般采用了 RDMARemote Direct Memory Access,遠(yuǎn)程直接內(nèi)存訪問(wèn))替代了 TCP 協(xié)議,實(shí)現(xiàn)時(shí)延的下降和降低對(duì)服務(wù)器 CPU 的占用率。但 RDMA 協(xié)議對(duì)網(wǎng)絡(luò)丟包非常敏感,0.01 的丟包率就會(huì)使RDMA 吞吐率下降為 0,所以無(wú)損就成為網(wǎng)絡(luò)的重要需求之一。

        TCP RDMA

        傳統(tǒng)的數(shù)據(jù)中心通常采用以太網(wǎng)技術(shù)組成多跳對(duì)稱的網(wǎng)絡(luò)架構(gòu),使用 TCP/IP 網(wǎng)絡(luò)協(xié)議棧進(jìn)行傳輸。但 TCP/IP 網(wǎng)絡(luò)通信逐漸不適應(yīng)高性能計(jì)算業(yè)務(wù)訴求,其主要限制有以下兩點(diǎn):

        限制一:TCP/IP 協(xié)議棧處理帶來(lái)數(shù)十微秒的時(shí)延

        TCP 協(xié)議棧在接收/發(fā)送報(bào)文時(shí),內(nèi)核需要做多次上下文切換,每次切換需要耗費(fèi) 5~10us 左右的時(shí)延,另外還需要至少三次的數(shù)據(jù)拷貝和依賴 CPU 進(jìn)行協(xié)議封裝,這導(dǎo)致僅僅協(xié)議棧處理就帶來(lái)數(shù)十微秒的固定時(shí)延,使得在 AI 數(shù)據(jù)運(yùn)算和SSD 分布式存儲(chǔ)等微秒級(jí)系統(tǒng)中,協(xié)議棧時(shí)延成為最明顯的瓶頸。

        限制二:TCP 協(xié)議棧處理導(dǎo)致服務(wù)器 CPU 負(fù)載居高不下

        除了固定時(shí)延較長(zhǎng)問(wèn)題,TCP/IP 網(wǎng)絡(luò)需要主機(jī) CPU 多次參與協(xié)議棧內(nèi)存拷貝。網(wǎng)絡(luò)規(guī)模越大,網(wǎng)絡(luò)帶寬越高,CPU 在收發(fā)數(shù)據(jù)時(shí)的調(diào)度負(fù)擔(dān)越大,導(dǎo)致 CPU持續(xù)高負(fù)載。按照業(yè)界測(cè)算數(shù)據(jù):每傳輸 1bit 數(shù)據(jù)需要耗費(fèi) 1Hz CPU,那么當(dāng)網(wǎng)絡(luò)帶寬達(dá)到 25G 以上(滿載),對(duì)于絕大多數(shù)服務(wù)器來(lái)說(shuō),至少 1 半的 CPU能力將不得不用來(lái)傳輸數(shù)據(jù)。

        為了降低網(wǎng)絡(luò)時(shí)延和 CPU 占用率,服務(wù)器端產(chǎn)生了 RDMA 功能。RDMA 是一種直接內(nèi)存訪問(wèn)技術(shù),他將數(shù)據(jù)直接從一臺(tái)計(jì)算機(jī)的內(nèi)存?zhèn)鬏數(shù)搅硪慌_(tái)計(jì)算機(jī),數(shù)據(jù)從一個(gè)系統(tǒng)快速移動(dòng)到遠(yuǎn)程系統(tǒng)存儲(chǔ)器中,無(wú)需雙方操作系統(tǒng)的介入,不需要經(jīng)過(guò)處理器耗時(shí)的處理,最終達(dá)到高帶寬、低時(shí)延和低資源占用率的效果。

        IB RoCE

        如下圖所示,RDMA 的內(nèi)核旁路機(jī)制允許應(yīng)用與網(wǎng)卡之間的直接數(shù)據(jù)讀寫(xiě),規(guī)避了 TCP/IP 的限制,將協(xié)議棧時(shí)延降低到接近 1us;同時(shí),RDMA 的內(nèi)存零拷貝機(jī)制,允許接收端直接從發(fā)送端的內(nèi)存讀取數(shù)據(jù),極大的減少了 CPU 的負(fù)擔(dān),提升CPU 的效率。


        舉例來(lái)說(shuō),40Gbps TCP/IP 流能耗盡主流服務(wù)器的所有 CPU 資源;而在使用 RDMA 40Gbps 場(chǎng)景下,CPU 占用率從 100%下降到 5%,網(wǎng)絡(luò)時(shí)延從ms 級(jí)降低到 10μs 以下。



        目前RDMA 的網(wǎng)絡(luò)層協(xié)議有三種選擇。分別是 InfiniBand、iWarpinternet Wide Area RDMA Protocol)、RoCERDMA over Converged Ethernet)。

        • InfiniBand 是一種專為 RDMA 設(shè)計(jì)的網(wǎng)絡(luò)協(xié)議,由 IBTAInfiniBand Trade Association)提出,從硬件級(jí)別保證了網(wǎng)絡(luò)無(wú)損,具有極高的吞吐量和極低的延遲。但是 InfiniBand 交換機(jī)是特定廠家提供的專用產(chǎn)品,采用私有協(xié)議,而絕大多數(shù)現(xiàn)網(wǎng)都采用 IP 以太網(wǎng)絡(luò),采用 InfiniBand 無(wú)法滿足互通性需求。同時(shí)封閉架構(gòu)也存在廠商鎖定的問(wèn)題,對(duì)于未來(lái)需要大規(guī)模彈性擴(kuò)展的業(yè)務(wù)系統(tǒng),如果被一個(gè)廠商鎖定則風(fēng)險(xiǎn)不可控。
        • iWarp,一個(gè)允許在 TCP 上執(zhí)行 RDMA 的網(wǎng)絡(luò)協(xié)議,需要支持 iWarp 的特殊網(wǎng)卡,支持在標(biāo)準(zhǔn)以太網(wǎng)交換機(jī)上使用 RDMA。但是由于 TCP 協(xié)議的限制,其性能上丟失了絕大部分 RDMA 協(xié)議的優(yōu)勢(shì)。
        • RoCE,允許應(yīng)用通過(guò)以太網(wǎng)實(shí)現(xiàn)遠(yuǎn)程內(nèi)存訪問(wèn)的網(wǎng)絡(luò)協(xié)議,也是由 IBTA 提出,是將 RDMA 技術(shù)運(yùn)用到以太網(wǎng)上的協(xié)議。同樣支持在標(biāo)準(zhǔn)以太網(wǎng)交換機(jī)上使用RDMA,只需要支持 RoCE 的特殊網(wǎng)卡,網(wǎng)絡(luò)硬件側(cè)無(wú)要求。目前 RoCE 有兩個(gè)協(xié)議版本,RoCEv1 RoCEv2RoCEv1 是一種鏈路層協(xié)議,允許在同一個(gè)廣播域下的任意兩臺(tái)主機(jī)直接訪問(wèn);RoCEv2 是一種網(wǎng)絡(luò)層協(xié)議,可以實(shí)現(xiàn)路由功能,允許不同廣播域下的主機(jī)通過(guò)三層訪問(wèn),是基于 UDP 協(xié)議封裝的。但由于RDMA 對(duì)丟包敏感的特點(diǎn),而傳統(tǒng)以太網(wǎng)又是盡力而為存在丟包問(wèn)題,所以需要交換機(jī)支持無(wú)損以太網(wǎng)。

        比較這三種技術(shù),iWarp 由于其失去了最重要的 RDMA 的性能優(yōu)勢(shì),已經(jīng)逐漸被業(yè)界所拋棄。InfiniBand 的性能最好,但是由于 InfiniBand 作為專用的網(wǎng)絡(luò)技術(shù),無(wú)法繼承用戶在 IP 網(wǎng)絡(luò)上運(yùn)維的積累和平臺(tái),企業(yè)引入 InfiniBand 需要重新招聘專人的運(yùn)維人員,而且當(dāng)前 InfiniBand 只有很少的市場(chǎng)空間(不到以太網(wǎng)的 1%),業(yè)內(nèi)有經(jīng)驗(yàn)的運(yùn)維人員嚴(yán)重缺乏,網(wǎng)絡(luò)一旦出現(xiàn)故障,甚至無(wú)法及時(shí)修復(fù),OPEX 極高。因此基于傳統(tǒng)的以太網(wǎng)絡(luò)來(lái)承載 RDMA,也是 RDMA 大規(guī)模應(yīng)用的必然。為了保障 RDMA 的性能和網(wǎng)絡(luò)層的通信,使用 RoCEv2 承載高性能分布式應(yīng)用已經(jīng)成為一種趨勢(shì)。

        然而上文我們說(shuō)過(guò),RDMA 對(duì)于丟包是非常敏感的。TCP 協(xié)議丟包重傳是大家都熟悉的機(jī)制,TCP 丟包重傳是精確重傳,發(fā)生重傳時(shí)會(huì)去除接收端已接收到的報(bào)文,減少不必要的重傳,做到丟哪個(gè)報(bào)文重傳哪個(gè)。然而 RDMA 協(xié)議中,每次出現(xiàn)丟包,都會(huì)導(dǎo)致整個(gè) message 的所有報(bào)文都重傳。另外,RoCEv2 是基于無(wú)連接協(xié)議的UDP 協(xié)議,相比面向連接的 TCP 協(xié)議,UDP 協(xié)議更加快速、占用 CPU 資源更少,但其不像 TCP 協(xié)議那樣有滑動(dòng)窗口、確認(rèn)應(yīng)答等機(jī)制來(lái)實(shí)現(xiàn)可靠傳輸,一旦出現(xiàn)丟包,RoCEv2 需要依靠上層應(yīng)用檢查到了再做重傳,會(huì)大大降低 RDMA 的傳輸效率。

        因此 RDMA 在無(wú)損狀態(tài)下可以滿速率傳輸,而一旦發(fā)生丟包重傳,性能會(huì)急劇下降。大于 0.001 的丟包率,將導(dǎo)致網(wǎng)絡(luò)有效吞吐急劇下降。0.01 的丟包率即使得 RDMA 的吞吐率下降為 0,要使得 RDMA 吞吐不受影響,丟包率必須保證在 1e-05(十萬(wàn)分之一)以下,最好為零丟包。



        RoCEv2 是將 RDMA 運(yùn)行在傳統(tǒng)以太網(wǎng)上,傳統(tǒng)以太網(wǎng)是盡力而為的傳輸模式,無(wú)法做到零丟包,所以為了保證 RDMA 網(wǎng)絡(luò)的高吞吐低時(shí)延,需要交換機(jī)支持無(wú)損以太網(wǎng)技術(shù)。




        轉(zhuǎn)載申明:轉(zhuǎn)載本號(hào)文章請(qǐng)注明作者來(lái)源,本號(hào)發(fā)布文章若存在版權(quán)等問(wèn)題,請(qǐng)留言聯(lián)系處理,謝謝。


        推薦閱讀

        更多架構(gòu)相關(guān)技術(shù)知識(shí)總結(jié)請(qǐng)參考“架構(gòu)師全店鋪技術(shù)資料打包”相關(guān)電子書(shū)(37本技術(shù)資料打包匯總詳情可通過(guò)“閱讀原文”獲取)。

        全店內(nèi)容持續(xù)更新,現(xiàn)下單“全店鋪技術(shù)資料打包(全)”,后續(xù)可享全店內(nèi)容更新“免費(fèi)”贈(zèng)閱,價(jià)格僅收198元(原總價(jià)350元)。



        溫馨提示:

        掃描二維碼關(guān)注公眾號(hào),點(diǎn)擊閱讀原文鏈接獲取架構(gòu)師技術(shù)全店資料打包匯總(全)電子書(shū)資料詳情。


        瀏覽 371
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            日本人妻A片成人免费看片 | 偷窥丶亚洲丶熟女 | 国产婬乱片A片AAA毛 | 国产又爽又黄视频 | 91精品国产.久久久久久 | 亚洲第一免费 | 四虎最新网站 | 亲吻呻吟打开双腿做受视频 | 周妍希脱了衣服裤子内裤内衣写真 | 强制宫交被迫蹂躏高h |