1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        如何配置InfiniBand和RDMA網(wǎng)絡(luò)?

        共 4684字,需瀏覽 10分鐘

         ·

        2022-03-11 03:30



        本文檔描述InfiniBand 遠(yuǎn)程直接訪問(wèn)(RDMA)是什么以及如何配置 InfiniBand 硬件。外,本文檔解了如何配置與 InfiniBand 相關(guān)的服務(wù)。本文請(qǐng)參看“配置InfiniBand和RDMA網(wǎng)絡(luò)”。


        下載鏈接:

        RDMA技術(shù)專(zhuān)題匯總(1)

        RDMA技術(shù)專(zhuān)題匯總(2)



        1、InfiniBandRDMA介紹

        InfiniBand 代表個(gè)不同的因素:

        • InfiniBand 網(wǎng)絡(luò)的物理協(xié)議?

        • InfiniBand Verbs API,RDMAremote direct memory access)技術(shù)的一個(gè)實(shí)現(xiàn)?


        RDMA 可在不涉及計(jì)算機(jī)操作系統(tǒng)的情況下,從一個(gè)計(jì)算機(jī)訪問(wèn)另一臺(tái)計(jì)算機(jī)的內(nèi)存。此技術(shù)啟用了高吞 吐量和低延遲聯(lián)網(wǎng),且 CPU 使用率低。?


        在典型的 IP 數(shù)據(jù)傳輸中,當(dāng)機(jī)器中的某個(gè)應(yīng)用程序向一臺(tái)機(jī)器上的應(yīng)用程序發(fā)送數(shù)據(jù)時(shí),在接收層時(shí) 會(huì)出現(xiàn)以下情況:?


        • 1. 內(nèi)核必接收數(shù)據(jù)。

        • 2. 內(nèi)核必確定數(shù)據(jù)是否屬于該應(yīng)用程序。?

        • 3. 內(nèi)核應(yīng)用程序。

        • 4. 內(nèi)核會(huì)等待應(yīng)用程序執(zhí)行系統(tǒng)調(diào)用到內(nèi)核。

        • 5. 應(yīng)用程序?qū)?nèi)核本身的內(nèi)部?jī)?nèi)存空數(shù)據(jù)復(fù)制到應(yīng)用程序提供的沖中。?


        個(gè)過(guò)程意味著,如果主機(jī)適配器使用直接內(nèi)存訪問(wèn)(DMA),或者至少次,大多數(shù)網(wǎng)絡(luò)流量會(huì)被復(fù)制 到系統(tǒng)的主內(nèi)存中。外,計(jì)算機(jī)執(zhí)行很多上下文開(kāi)關(guān)以在內(nèi)核和應(yīng)用程序上下文間進(jìn)行切。些上下 文切都可能造成高流量率的 CPU 負(fù)載,并可能造成其他任務(wù)的性能下降。?


        RDMA 會(huì)繞過(guò)內(nèi)核在過(guò)程中的干預(yù)和普通的 IP 不同CPU 開(kāi)銷(xiāo)RDMA 協(xié)議 讓主機(jī)適配器知道數(shù)據(jù)包何時(shí)來(lái)自網(wǎng)絡(luò),應(yīng)用程序應(yīng)該接收它,并在應(yīng)用程序的內(nèi)存空中保存數(shù)據(jù)包。對(duì) InfiniBand,主機(jī)適配器不將數(shù)據(jù)包發(fā)送到內(nèi)核,然后將其復(fù)制到用戶應(yīng)用程序的內(nèi)存中,而是,主機(jī)適 配器將數(shù)據(jù)包的內(nèi)容直接放置在應(yīng)用程序的沖中。此過(guò)程需要獨(dú)的 APIInfiniBand Verbs API,應(yīng)用 程序必支持個(gè)API才能使用 RDMA。?


        Red Hat Enterprise Linux 8支持 InfiniBand 硬件和 InfiniBand Verbs API。外,Red Hat Enterprise Linux 支持以下技術(shù),以便在非 InfiniBand 硬件中使用 InfiniBand Verbs API:?


        • 聯(lián)網(wǎng)廣域 RDMA 協(xié)議(iWARP):通過(guò) IP 網(wǎng)絡(luò)實(shí)RDMA 的網(wǎng)絡(luò)協(xié)議。?

        • RDMA over Converged Ethernet(RoCE),也稱(chēng)以太網(wǎng)的 InfiniBand(IBoE):通過(guò)以太網(wǎng)實(shí)現(xiàn) RDMA 的網(wǎng)絡(luò)協(xié)議


        2、配置 ROCE

        比如 Mellanox、Broadcom QLogic 都提供 RoCE 硬件。配置細(xì)節(jié),請(qǐng)參看“配置InfiniBand和RDMA網(wǎng)絡(luò)”。


        RoCE 是一種網(wǎng)絡(luò)協(xié)議,可實(shí)現(xiàn)過(guò)以太網(wǎng)的遠(yuǎn)程直接訪問(wèn)(RDMA)。以下是不同的 RoCE 版本:?


        • RoCE v1?


        RoCE 版本 1 協(xié)議ethertype 0x8915 的以太網(wǎng)層協(xié)議,它允同一以太網(wǎng)廣播域中任何個(gè)主機(jī)之間進(jìn)行通信。


        認(rèn)情況下,在使用 Mellanox ConnectX-3 網(wǎng)絡(luò)適配器時(shí),Red Hat Enterprise Linux 使用 RoCE v1 RDMA 接管理器(RDMA_CM)。


        • RoCE v2?


        RoCE 版本 2 協(xié)議IPv4 IPv6 協(xié)議UDP 上存在。RoCE v2 保留 UDP 標(biāo)端口號(hào) 4791。默認(rèn)情況下,在使用 Mellanox ConnectX-3 ProConnectX-4 Lx ConnectX-5 網(wǎng)絡(luò)適配器時(shí),Red Hat Enterprise LinuxRoCE v2 用于 RDMA_CM,但硬件支持 RoCE v1 RoCE v2。?


        RDMA_CM 設(shè)置客端和服務(wù)器之用來(lái)傳輸數(shù)據(jù)的可靠接。RDMA_CM 建立接提供了一個(gè)與 RDMA 傳輸相關(guān)的接口。通信使用特定的 RDMA設(shè)備,數(shù)據(jù)傳輸是基于消息的。


        在客端使用 RoCE v2,在服務(wù)器使用 RoCE v1 不被支持。在種情況下,將服務(wù)器和客 端都配置過(guò) RoCE v1 進(jìn)行通信。


        不支持在客端和服務(wù)器上的 RoCE v1 使用 RoCE v2 協(xié)議。如果您的服務(wù)器中硬件只支持 RoCE v1,請(qǐng)將 您的客端配置使用 RoCE v1 與服務(wù)器通信。部分述了如何在將 mlx5_0 驅(qū)動(dòng)程序用于 Mellanox ConnectX-5 Infiniband 設(shè)備的客端上強(qiáng)實(shí)RoCE v1。


        Soft-RoCE RDMA over Ethernet 的一個(gè)實(shí)現(xiàn),它也稱(chēng)RXE。在沒(méi)有 RoCE 主機(jī)道適配器 (HCA)的主機(jī)上使用 Soft-RoCE。


        Soft-RoCE 功能術(shù)預(yù)覽提供。產(chǎn)品服務(wù)級(jí)別協(xié)議SLA)不支持技術(shù)預(yù)覽功 能,且其功能可能并不完善,因此帽不建在生產(chǎn)環(huán)境中使用它


        配置細(xì)節(jié),請(qǐng)參看“配置InfiniBand和RDMA網(wǎng)絡(luò)”。


        3、配置核心RDMA子系統(tǒng)

        認(rèn)情況下,內(nèi)核命名 IP over InfiniBand(IPoIB)設(shè)備,如 ib0,ib1 等。避免沖突,帽建udev 設(shè) 備管理器中創(chuàng)建一條規(guī)則來(lái)創(chuàng)建持久且有意的名稱(chēng),如 mlx4_ib0。


        RDMA 操作需要固定物理內(nèi)存。意味著內(nèi)核不允把內(nèi)存寫(xiě)入到 swap 中。如果用固定太多內(nèi) 存,系統(tǒng)會(huì)耗盡內(nèi)存,并且內(nèi)核會(huì)進(jìn)程來(lái)放更多內(nèi)存。因此,內(nèi)存固定是一個(gè)特權(quán)操作。如果非 root 戶運(yùn)行大型 RDMA 應(yīng)用程序,可能需要增加些用可在系統(tǒng)中的內(nèi)存量。部分述 了如何rdma 配置無(wú)限內(nèi)存。


        配置RDMA務(wù),rdma 務(wù)在內(nèi)核中管理RDMA。如果Red Hat Enterprise Linux 檢測(cè)InfiniBand、iWARP RoCE 設(shè)備,udev 設(shè)備管理器會(huì)指示 systemd 啟動(dòng) rdma 務(wù)。配置細(xì)節(jié),請(qǐng)參看“配置InfiniBand和RDMA網(wǎng)絡(luò)”。


        4、配置InfiniBand子網(wǎng)管理器

        所有 InfiniBand 網(wǎng)絡(luò)都必須運(yùn)行子網(wǎng)管理器才能正常工作。即使臺(tái)機(jī)器沒(méi)有使用交機(jī)直接進(jìn)接, 也是如此。有可能有一個(gè)以上的子網(wǎng)管理器。在那種情況下,當(dāng)主子網(wǎng)管理器出現(xiàn)故障時(shí),外一個(gè)作從網(wǎng)管理器 的系統(tǒng)會(huì)接管。大多數(shù) InfiniBand 機(jī)都包含一個(gè)嵌入式子網(wǎng)管理器。


        但是,如果您需要一個(gè)更新的子網(wǎng)管理器,需使用 Red Hat Enterprise Linux 提供的 OpenSM 子網(wǎng)管理器。配置細(xì)節(jié),請(qǐng)參看“配置InfiniBand和RDMA網(wǎng)絡(luò)”。


        5、配置 IPOIB

        認(rèn)情況下,InfiniBand 不使用 IP 進(jìn)行通信。但是,IP over InfiniBand(IPoIB)InfiniBand 遠(yuǎn)程直接訪問(wèn) (RDMA)網(wǎng)絡(luò)之上提供一個(gè) IP 網(wǎng)絡(luò)擬層。許現(xiàn)有未經(jīng)修改的應(yīng)用程序通過(guò) InfiniBand 網(wǎng)絡(luò)傳輸數(shù) 據(jù),但性能低于應(yīng)用程序原生使用 RDMA 時(shí)的數(shù)據(jù)。


        聯(lián)網(wǎng)廣域 RDMA 協(xié)議(iWARP)RoCE 網(wǎng)絡(luò)已基于 IP。因此,您不能在 IWARP RoCE 設(shè)備之上創(chuàng)IPoIB 設(shè)備。Mellanox 設(shè)備ConnectX-4 及更高版本開(kāi)始,默認(rèn)使用 Enhanced IPoIB 模式(限數(shù) 據(jù)報(bào))。設(shè)備不支持接的模式。


        IPOIB模式,在 Datagram Connected 模式下配置 IPoIB 設(shè)備。不同之在,IPoIB 層試圖使用什么類(lèi)型的 隊(duì)對(duì)在通信的一端的機(jī)器中打開(kāi):


        Datagram 模式中,系統(tǒng)打開(kāi)了一個(gè)不可靠、斷開(kāi)接的隊(duì)對(duì)。個(gè)模式不支持大于 InfiniBand link-layer 的最大傳輸單(MTU)件包。IPoIB 傳輸IP 數(shù)據(jù)包之上添加了一個(gè) 4 節(jié) IPoIB 標(biāo)頭。因此,IPoIB MTU 需要比 InfiniBand link-layer MTU 4 節(jié)。因2048 是一個(gè)常見(jiàn)InfiniBand MTU,數(shù)據(jù)數(shù) 報(bào) 模式中常見(jiàn)IPoIB 設(shè)備 MTU 2044。?


        Connected 模式中,系統(tǒng)會(huì)打開(kāi)一個(gè)可靠、接的隊(duì)對(duì)。此模式允大于 InfiniBand MTU 的消息,主機(jī)適配器理數(shù)據(jù)包分段和重新傳輸。因 此,InfiniBand 適配器以 Connected 模式發(fā)送的 IPoIB 信息大小沒(méi)有限制。但是,IP 數(shù)據(jù)包會(huì)受 size 字段和 TCP/IP 標(biāo)頭的限制。因此,Connected 模式中的 IPoIB MTU 最大65520 節(jié)。


        接 模式模 的性能更高,但消耗的內(nèi)核內(nèi)存更多。?


        如果系統(tǒng)被配置使用 Connected 模式,它仍然會(huì)以 Datagram 模式發(fā)送多播流量,因InfiniBand 機(jī)和光無(wú)法在 Connected 模式下傳遞多播流量。外,當(dāng)與任何未在 Connected 模式中配置的主 機(jī)通信時(shí),系統(tǒng)將返回 Datagram 模式。

        運(yùn)行將多播數(shù)據(jù)發(fā)送到接口上最大 MTU 應(yīng)用程序時(shí),您必將接口配置Datagram 模式,或者將 應(yīng)用程序配置以數(shù)據(jù)包大小數(shù)據(jù)包的大小封數(shù)據(jù)包發(fā)送的大小。配置細(xì)節(jié),請(qǐng)參看“配置InfiniBand和RDMA網(wǎng)絡(luò)”。


        相關(guān)閱讀:

        下載鏈接:

        RDMA技術(shù)專(zhuān)題匯總(1)

        RDMA技術(shù)專(zhuān)題匯總(2)

        總線級(jí)數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)白皮書(shū)

        超融合數(shù)據(jù)中心網(wǎng)絡(luò)

        中國(guó)聯(lián)通的開(kāi)放網(wǎng)絡(luò)研究與實(shí)踐

        中國(guó)聯(lián)通開(kāi)放硬件網(wǎng)絡(luò)設(shè)備白皮書(shū)

        白牌網(wǎng)絡(luò)及交換機(jī)白皮書(shū)匯總
        1、掘金云數(shù)據(jù)中心白盒化趨勢(shì).pdf
        2、商用交換芯片SDN支持現(xiàn)狀分析.pdf
        3、白盒交換機(jī)技術(shù)白皮書(shū).pdf
        4、協(xié)議無(wú)關(guān)交換機(jī)架構(gòu)應(yīng)用白皮書(shū).pdf
        5、中國(guó)聯(lián)通開(kāi)放硬件網(wǎng)絡(luò)設(shè)備白皮書(shū).pdf
        6、中興通訊CO重構(gòu)技術(shù)白皮書(shū).pdf

        來(lái)源:全棧云技術(shù)架構(gòu)


        ???????????????? ?END ?????????????????

        轉(zhuǎn)載申明:轉(zhuǎn)載本號(hào)文章請(qǐng)注明作者來(lái)源,本號(hào)發(fā)布文章若存在版權(quán)等問(wèn)題,請(qǐng)留言聯(lián)系處理,謝謝。


        推薦閱讀

        更多架構(gòu)相關(guān)技術(shù)總結(jié)請(qǐng)參考“架構(gòu)師全店鋪技術(shù)資料打包”相關(guān)電子書(shū)(37本技術(shù)資料打包匯總詳情可通過(guò)“閱讀原文”獲取)。

        內(nèi)容持續(xù)更新,現(xiàn)下單“全店鋪技術(shù)資料打包(全)”,后續(xù)可享全店更新“免費(fèi)”贈(zèng)閱,價(jià)格僅收198元(原總價(jià)350元)。



        溫馨提示:

        掃描二維碼關(guān)注公眾號(hào),點(diǎn)擊閱讀原文鏈接獲取“IT技術(shù)全店資料打包匯總(全)電子書(shū)資料詳情


        瀏覽 75
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            99精品免费观看 | 成人黄网站 免费视频 | 成人三级片在线看 | 国内免费无码操妣 | 男同教练gay互吃鳮 | 骚逼91 | 欧美a久久 | 久久97超碰 | 蜜桃亚洲AV无码一区二区三区 | 修修视频网站网页在线观看免费 |