AA级黄色片,久久女同,啪啪啪啪网址,操逼网站入口,啊～嗯去电影院里做h,大香蕉伊人久久,人体艺术香蕉视频,国产青青在线

隨著 5G、大數(shù)據(jù)、物聯(lián)網(wǎng)、AI 等新技術(shù)融入人類社會(huì)的方方面面，可以預(yù)見(jiàn)，在未來(lái)二三十年間人類將邁入基于數(shù)字世界的萬(wàn)物感知、萬(wàn)物互聯(lián)、萬(wàn)物智能的智能社會(huì)。數(shù)據(jù)中心算力成為新的生產(chǎn)力，數(shù)據(jù)中心量綱也從原有的資源規(guī)模向算力規(guī)模轉(zhuǎn)變，算力中心的概念被業(yè)界廣泛接受。數(shù)據(jù)中心向算力中心演進(jìn)，網(wǎng)絡(luò)是數(shù)據(jù)中心大算力的重要組成部分，提升網(wǎng)絡(luò)性能，可顯著改進(jìn)數(shù)據(jù)中心算力能效比。

為了提升算力，業(yè)界在多條路徑上持續(xù)演進(jìn)。單核芯片的工藝提升目前止步于3nm；通過(guò)疊加多核提升算力，隨著核數(shù)的增加，單位算力功耗也會(huì)顯著增長(zhǎng)，當(dāng)128 核增至 256 核時(shí)，總算力水平無(wú)法提升 1.2 倍。計(jì)算單元的工藝演進(jìn)已經(jīng)逼近基線，每 18 個(gè)月翻一番的摩爾定律即將失效，為了滿足大算力的需求，HPC 高性能計(jì)算成為常態(tài)。隨著算力需求的不斷增長(zhǎng)，從 P 級(jí)向 E 級(jí)演進(jìn)，計(jì)算集群規(guī)模不斷擴(kuò)大，對(duì)互聯(lián)網(wǎng)絡(luò)性能要求越來(lái)越高，計(jì)算和網(wǎng)絡(luò)深度融合成為趨勢(shì)。

HPC（高性能計(jì)算）是指利用聚集起來(lái)的計(jì)算能力來(lái)處理標(biāo)準(zhǔn)工作站無(wú)法完成的科研、工業(yè)界最復(fù)雜的科學(xué)計(jì)算問(wèn)題，包括仿真、建模和渲染等。由于需要大量的運(yùn)算，一臺(tái)通用計(jì)算機(jī)無(wú)法在合理的時(shí)間內(nèi)完成工作，或者由于所需的數(shù)據(jù)量過(guò)大而可用的資源有限，導(dǎo)致根本無(wú)法執(zhí)行計(jì)算，此時(shí)一種方式是通過(guò)使用專門(mén)或高端的硬件進(jìn)行處理，但其性能往往依然很難達(dá)到要求同時(shí)較為昂貴。目前業(yè)界使用較多的方式是將多個(gè)單元的計(jì)算能力進(jìn)行整合，將數(shù)據(jù)和運(yùn)算相應(yīng)地分布到多個(gè)單元中，從而有效地克服這些限制。

HPC 高性能計(jì)算的計(jì)算節(jié)點(diǎn)之間交互對(duì)網(wǎng)絡(luò)性能的要求也是不同的，大致可以分為三類典型場(chǎng)景：

松耦合計(jì)算場(chǎng)景：在松耦合場(chǎng)景中，計(jì)算節(jié)點(diǎn)之間對(duì)于彼此信息的相互依賴程度較低，網(wǎng)絡(luò)性能要求相對(duì)較低。一般金融風(fēng)險(xiǎn)評(píng)估、遙感與測(cè)繪、分子動(dòng)力學(xué)等業(yè)務(wù)屬于松耦合場(chǎng)景。該場(chǎng)景對(duì)于網(wǎng)絡(luò)性能要求相對(duì)較低。
緊耦合場(chǎng)景：緊耦合場(chǎng)景中，對(duì)于各計(jì)算節(jié)點(diǎn)間彼此工作的協(xié)調(diào)、計(jì)算的同步以及信息的高速傳輸有很強(qiáng)的依賴性。一般電磁仿真、流體動(dòng)力學(xué)和汽車碰撞等場(chǎng)景屬于緊耦合場(chǎng)景。該場(chǎng)景對(duì)網(wǎng)絡(luò)時(shí)延要求極高，需要提供低時(shí)延網(wǎng)絡(luò)。
數(shù)據(jù)密集型計(jì)算場(chǎng)景：在數(shù)據(jù)密集型計(jì)算場(chǎng)景中，其特點(diǎn)是計(jì)算節(jié)點(diǎn)需要處理大量的數(shù)據(jù)，并在計(jì)算過(guò)程中產(chǎn)生大量的中間數(shù)據(jù)。一般氣象預(yù)報(bào)、基因測(cè)序、圖形渲染和能源勘探等屬于數(shù)據(jù)密集型計(jì)算場(chǎng)景。由于該場(chǎng)景下計(jì)算節(jié)點(diǎn)處理大量數(shù)據(jù)的同時(shí)又產(chǎn)生了大量中間數(shù)據(jù)，所以該場(chǎng)景要求提供高吞吐的網(wǎng)絡(luò)，同時(shí)對(duì)于網(wǎng)絡(luò)時(shí)延也有一定要求。

總結(jié)一下 HPC 高性能計(jì)算對(duì)網(wǎng)絡(luò)的訴求，高吞吐和低時(shí)延成為兩個(gè)重要的關(guān)鍵詞。同時(shí)為了實(shí)現(xiàn)高吞吐和低時(shí)延，業(yè)界一般采用了 RDMA（Remote Direct Memory Access，遠(yuǎn)程直接內(nèi)存訪問(wèn)）替代了 TCP 協(xié)議，實(shí)現(xiàn)時(shí)延的下降和降低對(duì)服務(wù)器 CPU 的占用率。但 RDMA 協(xié)議對(duì)網(wǎng)絡(luò)丟包非常敏感，0.01 的丟包率就會(huì)使RDMA 吞吐率下降為 0，所以無(wú)損就成為網(wǎng)絡(luò)的重要需求之一。

從TCP 到 RDMA

傳統(tǒng)的數(shù)據(jù)中心通常采用以太網(wǎng)技術(shù)組成多跳對(duì)稱的網(wǎng)絡(luò)架構(gòu)，使用 TCP/IP 網(wǎng)絡(luò)協(xié)議棧進(jìn)行傳輸。但 TCP/IP 網(wǎng)絡(luò)通信逐漸不適應(yīng)高性能計(jì)算業(yè)務(wù)訴求，其主要限制有以下兩點(diǎn)：

限制一：TCP/IP 協(xié)議棧處理帶來(lái)數(shù)十微秒的時(shí)延

TCP 協(xié)議棧在接收/發(fā)送報(bào)文時(shí)，內(nèi)核需要做多次上下文切換，每次切換需要耗費(fèi) 5~10us 左右的時(shí)延，另外還需要至少三次的數(shù)據(jù)拷貝和依賴 CPU 進(jìn)行協(xié)議封裝，這導(dǎo)致僅僅協(xié)議棧處理就帶來(lái)數(shù)十微秒的固定時(shí)延，使得在 AI 數(shù)據(jù)運(yùn)算和SSD 分布式存儲(chǔ)等微秒級(jí)系統(tǒng)中，協(xié)議棧時(shí)延成為最明顯的瓶頸。

限制二：TCP 協(xié)議棧處理導(dǎo)致服務(wù)器 CPU 負(fù)載居高不下

除了固定時(shí)延較長(zhǎng)問(wèn)題，TCP/IP 網(wǎng)絡(luò)需要主機(jī) CPU 多次參與協(xié)議棧內(nèi)存拷貝。網(wǎng)絡(luò)規(guī)模越大，網(wǎng)絡(luò)帶寬越高，CPU 在收發(fā)數(shù)據(jù)時(shí)的調(diào)度負(fù)擔(dān)越大，導(dǎo)致 CPU持續(xù)高負(fù)載。按照業(yè)界測(cè)算數(shù)據(jù)：每傳輸 1bit 數(shù)據(jù)需要耗費(fèi) 1Hz 的 CPU，那么當(dāng)網(wǎng)絡(luò)帶寬達(dá)到 25G 以上（滿載），對(duì)于絕大多數(shù)服務(wù)器來(lái)說(shuō)，至少 1 半的 CPU能力將不得不用來(lái)傳輸數(shù)據(jù)。

為了降低網(wǎng)絡(luò)時(shí)延和 CPU 占用率，服務(wù)器端產(chǎn)生了 RDMA 功能。RDMA 是一種直接內(nèi)存訪問(wèn)技術(shù)，他將數(shù)據(jù)直接從一臺(tái)計(jì)算機(jī)的內(nèi)存?zhèn)鬏數(shù)搅硪慌_(tái)計(jì)算機(jī)，數(shù)據(jù)從一個(gè)系統(tǒng)快速移動(dòng)到遠(yuǎn)程系統(tǒng)存儲(chǔ)器中，無(wú)需雙方操作系統(tǒng)的介入，不需要經(jīng)過(guò)處理器耗時(shí)的處理，最終達(dá)到高帶寬、低時(shí)延和低資源占用率的效果。

從IB 到 RoCE

如下圖所示，RDMA 的內(nèi)核旁路機(jī)制允許應(yīng)用與網(wǎng)卡之間的直接數(shù)據(jù)讀寫(xiě)，規(guī)避了 TCP/IP 的限制，將協(xié)議棧時(shí)延降低到接近 1us；同時(shí)，RDMA 的內(nèi)存零拷貝機(jī)制，允許接收端直接從發(fā)送端的內(nèi)存讀取數(shù)據(jù)，極大的減少了 CPU 的負(fù)擔(dān)，提升CPU 的效率。

舉例來(lái)說(shuō)，40Gbps 的 TCP/IP 流能耗盡主流服務(wù)器的所有 CPU 資源；而在使用 RDMA 的 40Gbps 場(chǎng)景下，CPU 占用率從 100%下降到 5%，網(wǎng)絡(luò)時(shí)延從ms 級(jí)降低到 10μs 以下。

目前RDMA 的網(wǎng)絡(luò)層協(xié)議有三種選擇。分別是 InfiniBand、iWarp（internet Wide Area RDMA Protocol）、RoCE（RDMA over Converged Ethernet）。

InfiniBand 是一種專為 RDMA 設(shè)計(jì)的網(wǎng)絡(luò)協(xié)議，由 IBTA（InfiniBand Trade Association）提出，從硬件級(jí)別保證了網(wǎng)絡(luò)無(wú)損，具有極高的吞吐量和極低的延遲。但是 InfiniBand 交換機(jī)是特定廠家提供的專用產(chǎn)品，采用私有協(xié)議，而絕大多數(shù)現(xiàn)網(wǎng)都采用 IP 以太網(wǎng)絡(luò)，采用 InfiniBand 無(wú)法滿足互通性需求。同時(shí)封閉架構(gòu)也存在廠商鎖定的問(wèn)題，對(duì)于未來(lái)需要大規(guī)模彈性擴(kuò)展的業(yè)務(wù)系統(tǒng)，如果被一個(gè)廠商鎖定則風(fēng)險(xiǎn)不可控。
iWarp，一個(gè)允許在 TCP 上執(zhí)行 RDMA 的網(wǎng)絡(luò)協(xié)議，需要支持 iWarp 的特殊網(wǎng)卡，支持在標(biāo)準(zhǔn)以太網(wǎng)交換機(jī)上使用 RDMA。但是由于 TCP 協(xié)議的限制，其性能上丟失了絕大部分 RDMA 協(xié)議的優(yōu)勢(shì)。
RoCE，允許應(yīng)用通過(guò)以太網(wǎng)實(shí)現(xiàn)遠(yuǎn)程內(nèi)存訪問(wèn)的網(wǎng)絡(luò)協(xié)議，也是由 IBTA 提出，是將 RDMA 技術(shù)運(yùn)用到以太網(wǎng)上的協(xié)議。同樣支持在標(biāo)準(zhǔn)以太網(wǎng)交換機(jī)上使用RDMA，只需要支持 RoCE 的特殊網(wǎng)卡，網(wǎng)絡(luò)硬件側(cè)無(wú)要求。目前 RoCE 有兩個(gè)協(xié)議版本，RoCEv1 和 RoCEv2：RoCEv1 是一種鏈路層協(xié)議，允許在同一個(gè)廣播域下的任意兩臺(tái)主機(jī)直接訪問(wèn)；RoCEv2 是一種網(wǎng)絡(luò)層協(xié)議，可以實(shí)現(xiàn)路由功能，允許不同廣播域下的主機(jī)通過(guò)三層訪問(wèn)，是基于 UDP 協(xié)議封裝的。但由于RDMA 對(duì)丟包敏感的特點(diǎn)，而傳統(tǒng)以太網(wǎng)又是盡力而為存在丟包問(wèn)題，所以需要交換機(jī)支持無(wú)損以太網(wǎng)。

比較這三種技術(shù)，iWarp 由于其失去了最重要的 RDMA 的性能優(yōu)勢(shì)，已經(jīng)逐漸被業(yè)界所拋棄。InfiniBand 的性能最好，但是由于 InfiniBand 作為專用的網(wǎng)絡(luò)技術(shù)，無(wú)法繼承用戶在 IP 網(wǎng)絡(luò)上運(yùn)維的積累和平臺(tái)，企業(yè)引入 InfiniBand 需要重新招聘專人的運(yùn)維人員，而且當(dāng)前 InfiniBand 只有很少的市場(chǎng)空間（不到以太網(wǎng)的 1%），業(yè)內(nèi)有經(jīng)驗(yàn)的運(yùn)維人員嚴(yán)重缺乏，網(wǎng)絡(luò)一旦出現(xiàn)故障，甚至無(wú)法及時(shí)修復(fù)，OPEX 極高。因此基于傳統(tǒng)的以太網(wǎng)絡(luò)來(lái)承載 RDMA，也是 RDMA 大規(guī)模應(yīng)用的必然。為了保障 RDMA 的性能和網(wǎng)絡(luò)層的通信，使用 RoCEv2 承載高性能分布式應(yīng)用已經(jīng)成為一種趨勢(shì)。

然而上文我們說(shuō)過(guò)，RDMA 對(duì)于丟包是非常敏感的。TCP 協(xié)議丟包重傳是大家都熟悉的機(jī)制，TCP 丟包重傳是精確重傳，發(fā)生重傳時(shí)會(huì)去除接收端已接收到的報(bào)文，減少不必要的重傳，做到丟哪個(gè)報(bào)文重傳哪個(gè)。然而 RDMA 協(xié)議中，每次出現(xiàn)丟包，都會(huì)導(dǎo)致整個(gè) message 的所有報(bào)文都重傳。另外，RoCEv2 是基于無(wú)連接協(xié)議的UDP 協(xié)議，相比面向連接的 TCP 協(xié)議，UDP 協(xié)議更加快速、占用 CPU 資源更少，但其不像 TCP 協(xié)議那樣有滑動(dòng)窗口、確認(rèn)應(yīng)答等機(jī)制來(lái)實(shí)現(xiàn)可靠傳輸，一旦出現(xiàn)丟包，RoCEv2 需要依靠上層應(yīng)用檢查到了再做重傳，會(huì)大大降低 RDMA 的傳輸效率。

因此 RDMA 在無(wú)損狀態(tài)下可以滿速率傳輸，而一旦發(fā)生丟包重傳，性能會(huì)急劇下降。大于 0.001 的丟包率，將導(dǎo)致網(wǎng)絡(luò)有效吞吐急劇下降。0.01 的丟包率即使得 RDMA 的吞吐率下降為 0，要使得 RDMA 吞吐不受影響，丟包率必須保證在 1e-05（十萬(wàn)分之一）以下，最好為零丟包。

RoCEv2 是將 RDMA 運(yùn)行在傳統(tǒng)以太網(wǎng)上，傳統(tǒng)以太網(wǎng)是盡力而為的傳輸模式，無(wú)法做到零丟包，所以為了保證 RDMA 網(wǎng)絡(luò)的高吞吐低時(shí)延，需要交換機(jī)支持無(wú)損以太網(wǎng)技術(shù)。

轉(zhuǎn)載申明：轉(zhuǎn)載本號(hào)文章請(qǐng)注明作者和來(lái)源，本號(hào)發(fā)布文章若存在版權(quán)等問(wèn)題，請(qǐng)留言聯(lián)系處理，謝謝。

推薦閱讀

更多架構(gòu)相關(guān)技術(shù)知識(shí)總結(jié)請(qǐng)參考“架構(gòu)師全店鋪技術(shù)資料打包”相關(guān)電子書(shū)(37本技術(shù)資料打包匯總詳情可通過(guò)“閱讀原文”獲取)。

全店內(nèi)容持續(xù)更新，現(xiàn)下單“全店鋪技術(shù)資料打包(全)”，后續(xù)可享全店內(nèi)容更新“免費(fèi)”贈(zèng)閱，價(jià)格僅收198元(原總價(jià)350元)。

溫馨提示：

掃描二維碼關(guān)注公眾號(hào)，點(diǎn)擊閱讀原文鏈接獲取“架構(gòu)師技術(shù)全店資料打包匯總(全)”電子書(shū)資料詳情。

超算網(wǎng)絡(luò)演變：從TCP到RDMA，從IB到RoCE

超算網(wǎng)絡(luò)演變：從TCP到RDMA，從IB到RoCE