超算網(wǎng)絡(luò)演變:從TCP到RDMA,從IB到RoCE


-
松耦合計(jì)算場(chǎng)景:在松耦合場(chǎng)景中,計(jì)算節(jié)點(diǎn)之間對(duì)于彼此信息的相互依賴程度較低,網(wǎng)絡(luò)性能要求相對(duì)較低。一般金融風(fēng)險(xiǎn)評(píng)估、遙感與測(cè)繪、分子動(dòng)力學(xué)等業(yè)務(wù)屬于松耦合場(chǎng)景。該場(chǎng)景對(duì)于網(wǎng)絡(luò)性能要求相對(duì)較低。 -
緊耦合場(chǎng)景:緊耦合場(chǎng)景中,對(duì)于各計(jì)算節(jié)點(diǎn)間彼此工作的協(xié)調(diào)、計(jì)算的同步以及信息的高速傳輸有很強(qiáng)的依賴性。一般電磁仿真、流體動(dòng)力學(xué)和汽車碰撞等場(chǎng)景屬于緊耦合場(chǎng)景。該場(chǎng)景對(duì)網(wǎng)絡(luò)時(shí)延要求極高,需要提供低時(shí)延網(wǎng)絡(luò)。 -
數(shù)據(jù)密集型計(jì)算場(chǎng)景:在數(shù)據(jù)密集型計(jì)算場(chǎng)景中,其特點(diǎn)是計(jì)算節(jié)點(diǎn)需要處理大量的數(shù)據(jù),并在計(jì)算過(guò)程中產(chǎn)生大量的中間數(shù)據(jù)。一般氣象預(yù)報(bào)、基因測(cè)序、圖形渲染和能源勘探等屬于數(shù)據(jù)密集型計(jì)算場(chǎng)景。由于該場(chǎng)景下計(jì)算節(jié)點(diǎn)處理大量數(shù)據(jù)的同時(shí)又產(chǎn)生了大量中間數(shù)據(jù),所以該場(chǎng)景要求提供高吞吐的網(wǎng)絡(luò),同時(shí)對(duì)于網(wǎng)絡(luò)時(shí)延也有一定要求。
如下圖所示,RDMA 的內(nèi)核旁路機(jī)制允許應(yīng)用與網(wǎng)卡之間的直接數(shù)據(jù)讀寫(xiě),規(guī)避了 TCP/IP 的限制,將協(xié)議棧時(shí)延降低到接近 1us;同時(shí),RDMA 的內(nèi)存零拷貝機(jī)制,允許接收端直接從發(fā)送端的內(nèi)存讀取數(shù)據(jù),極大的減少了 CPU 的負(fù)擔(dān),提升CPU 的效率。
舉例來(lái)說(shuō),40Gbps 的 TCP/IP 流能耗盡主流服務(wù)器的所有 CPU 資源;而在使用 RDMA 的 40Gbps 場(chǎng)景下,CPU 占用率從 100%下降到 5%,網(wǎng)絡(luò)時(shí)延從ms 級(jí)降低到 10μs 以下。
-
InfiniBand 是一種專為 RDMA 設(shè)計(jì)的網(wǎng)絡(luò)協(xié)議,由 IBTA(InfiniBand Trade Association)提出,從硬件級(jí)別保證了網(wǎng)絡(luò)無(wú)損,具有極高的吞吐量和極低的延遲。但是 InfiniBand 交換機(jī)是特定廠家提供的專用產(chǎn)品,采用私有協(xié)議,而絕大多數(shù)現(xiàn)網(wǎng)都采用 IP 以太網(wǎng)絡(luò),采用 InfiniBand 無(wú)法滿足互通性需求。同時(shí)封閉架構(gòu)也存在廠商鎖定的問(wèn)題,對(duì)于未來(lái)需要大規(guī)模彈性擴(kuò)展的業(yè)務(wù)系統(tǒng),如果被一個(gè)廠商鎖定則風(fēng)險(xiǎn)不可控。 -
iWarp,一個(gè)允許在 TCP 上執(zhí)行 RDMA 的網(wǎng)絡(luò)協(xié)議,需要支持 iWarp 的特殊網(wǎng)卡,支持在標(biāo)準(zhǔn)以太網(wǎng)交換機(jī)上使用 RDMA。但是由于 TCP 協(xié)議的限制,其性能上丟失了絕大部分 RDMA 協(xié)議的優(yōu)勢(shì)。 -
RoCE,允許應(yīng)用通過(guò)以太網(wǎng)實(shí)現(xiàn)遠(yuǎn)程內(nèi)存訪問(wèn)的網(wǎng)絡(luò)協(xié)議,也是由 IBTA 提出,是將 RDMA 技術(shù)運(yùn)用到以太網(wǎng)上的協(xié)議。同樣支持在標(biāo)準(zhǔn)以太網(wǎng)交換機(jī)上使用RDMA,只需要支持 RoCE 的特殊網(wǎng)卡,網(wǎng)絡(luò)硬件側(cè)無(wú)要求。目前 RoCE 有兩個(gè)協(xié)議版本,RoCEv1 和 RoCEv2:RoCEv1 是一種鏈路層協(xié)議,允許在同一個(gè)廣播域下的任意兩臺(tái)主機(jī)直接訪問(wèn);RoCEv2 是一種網(wǎng)絡(luò)層協(xié)議,可以實(shí)現(xiàn)路由功能,允許不同廣播域下的主機(jī)通過(guò)三層訪問(wèn),是基于 UDP 協(xié)議封裝的。但由于RDMA 對(duì)丟包敏感的特點(diǎn),而傳統(tǒng)以太網(wǎng)又是盡力而為存在丟包問(wèn)題,所以需要交換機(jī)支持無(wú)損以太網(wǎng)。
RoCEv2 是將 RDMA 運(yùn)行在傳統(tǒng)以太網(wǎng)上,傳統(tǒng)以太網(wǎng)是盡力而為的傳輸模式,無(wú)法做到零丟包,所以為了保證 RDMA 網(wǎng)絡(luò)的高吞吐低時(shí)延,需要交換機(jī)支持無(wú)損以太網(wǎng)技術(shù)。

轉(zhuǎn)載申明:轉(zhuǎn)載本號(hào)文章請(qǐng)注明作者和來(lái)源,本號(hào)發(fā)布文章若存在版權(quán)等問(wèn)題,請(qǐng)留言聯(lián)系處理,謝謝。
推薦閱讀
更多架構(gòu)相關(guān)技術(shù)知識(shí)總結(jié)請(qǐng)參考“架構(gòu)師全店鋪技術(shù)資料打包”相關(guān)電子書(shū)(37本技術(shù)資料打包匯總詳情可通過(guò)“閱讀原文”獲取)。
全店內(nèi)容持續(xù)更新,現(xiàn)下單“全店鋪技術(shù)資料打包(全)”,后續(xù)可享全店內(nèi)容更新“免費(fèi)”贈(zèng)閱,價(jià)格僅收198元(原總價(jià)350元)。
溫馨提示:
掃描二維碼關(guān)注公眾號(hào),點(diǎn)擊閱讀原文鏈接獲取“架構(gòu)師技術(shù)全店資料打包匯總(全)”電子書(shū)資料詳情。

