GPU、CPU和DRAM接口互聯(lián)技術(shù)
服務(wù)器算力篇:
DGX H100 于 2022 年推出,是 NVIDIA 的 DGX 系統(tǒng)的最新迭代產(chǎn)品,也 是 NVIDIA DGX SuperPOD 的基礎(chǔ)。DXG 服務(wù)器配備 8 塊 H100 GPU,6400億個(gè)晶體管,在全新的 FP8 精度下 AI 性能比上一代高 6 倍,可提供 900GB/s 的帶寬。

在 DGX H100 服務(wù)器內(nèi)部,藍(lán)色方塊為 IP 網(wǎng)卡,既可充當(dāng)網(wǎng)卡又可發(fā)揮 PCIe Switch 擴(kuò)展功能,成為 CPU 與 GPU(H100)之間互聯(lián)的橋梁。其內(nèi)部采用 PCle 5.0 標(biāo)準(zhǔn)。此外,CX7 以網(wǎng)卡芯片的形式做成 2 塊板卡來(lái)插入服務(wù)器,每 4 個(gè) CX7 芯片組成一塊板卡并且對(duì)外輸出 2 個(gè) 800G OSFP 光模塊口。
而 GPU(H100)之間互聯(lián)主要通過(guò) NV Switch 芯片來(lái)實(shí)現(xiàn)。每個(gè) DGXH100 內(nèi)的一個(gè) GPU 向外伸出 18 個(gè) NVLink ,單鏈雙向帶寬為 50 GB/s,共計(jì)18*50GB/s=900GB/s 雙向帶寬,拆分到 4 個(gè)板載的 NV Switch 上去,因而每個(gè)NV Switch 對(duì)應(yīng) 4-5 個(gè) OSFP 光模塊(共計(jì) 18 個(gè))。每個(gè) OSFP 光模塊采用 8 個(gè)光通道,每個(gè)通道的傳輸速率為 100Gbps,因此總速率高達(dá) 800Gbps,能夠?qū)崿F(xiàn)高速的數(shù)據(jù)傳輸。
1、CPU、GPU等組件互聯(lián):PCIE Switch、Retimer芯 片
PCIe Switch 即 PCIe 開(kāi)關(guān)或 PCIe 交換機(jī),主要作用是實(shí)現(xiàn) PCIe 設(shè)備互聯(lián), PCIe Switch 芯片與其設(shè)備的通信協(xié)議都是 PCIe。由于 PCIe 的鏈路通信是一種端對(duì)端的數(shù)據(jù)傳輸,因此需要 Switch 提供擴(kuò)展或聚合能力,從而允許更多的設(shè)備連接到一個(gè) PCle 端口,以解決 PCIe 通道數(shù)量不夠的問(wèn)題。目前 PCIe Switch 不僅已經(jīng)被廣泛應(yīng)用在了傳統(tǒng)存儲(chǔ)系統(tǒng)中,而且在部分服務(wù)器平臺(tái)也逐漸普及,用于提高數(shù)據(jù)傳輸?shù)乃俣取?/span>
PCIe 總線技術(shù)升級(jí),PCIe Switch 每代速率提升。 PCIe 總線是 PCI 總線的 高速串行替代品。2001 年,Intel 公布取代 PCI 總線的第三代 I/O 技術(shù)——“3GIO”,2002 年該項(xiàng)技術(shù)經(jīng)過(guò) PCI 特殊興趣組織(PCI-SIG)審核后正式改名為“PCI Express”,標(biāo)志著 PCIe 的誕生。2003 年,PCIe 1.0 正式發(fā)布,可支持每通道傳輸速率為 250MB/s,總傳輸速率為 2.5 GT/s。2007 年 PCI-SIG 宣布推出 PCI Express Base 2.0 規(guī)范。在 PCIe 1.0 的基礎(chǔ)上將總傳輸速率提高了一倍,達(dá)到 5 GT/s,每通道傳輸速率從 250 MB/s 上升至 500 MB/s。2022 年 PCI-SIG正式發(fā)布 PCIe 6.0 規(guī)范,將總帶寬提高至 64 GT/s。

隨著PCIe 在服務(wù)器中越來(lái)越廣泛地被應(yīng)用,PCIe Switch 的市場(chǎng)需求也被帶 動(dòng)起來(lái)。根據(jù) QYResearch(恒州博智)的統(tǒng)計(jì)及預(yù)測(cè),2021 年全球 PCIe 芯片市場(chǎng)銷售額達(dá)到了 7.9 億美元,預(yù)計(jì) 2028 年將達(dá)到 18 億美元,年復(fù)合增長(zhǎng)率(CAGR)為 11.9%。

中國(guó)是 PCIe Switch 最大市場(chǎng)。 隨著服務(wù)器對(duì)海量數(shù)據(jù)存儲(chǔ)與傳輸?shù)囊笕?/span> 益提高,PCIe Switch 市場(chǎng)發(fā)展成為一片藍(lán)海。中國(guó)是全球最大的電子產(chǎn)品生產(chǎn)和消費(fèi)國(guó)家之一,在大數(shù)據(jù)、云計(jì)算、人工智能等領(lǐng)域,需要大量高速互聯(lián)解決方案來(lái)實(shí)現(xiàn)海量數(shù)據(jù)傳輸。而 PCIe Switch 作為高速互聯(lián)解決方案,在中國(guó)市場(chǎng)具有極大的需求。
在 AI 服務(wù)器中,GPU 與 CPU 連接時(shí)至少需要一顆 Retimer 芯片來(lái)保證信號(hào) 質(zhì)量。具體而言,很多 AI 服務(wù)器都會(huì)配置多顆 Retimer 芯片,例如 Astera Labs在 AI 加速器中配置了 4 顆 Retimer 芯片。

PCIe Retimer 藍(lán)海市場(chǎng)三足鼎立,潛在競(jìng)爭(zhēng)者躍躍欲試。 目前譜瑞-KY、 Astera labs、瀾起科技是 PCIe Retimer 藍(lán)海市場(chǎng)中的三家主要廠商,占據(jù)領(lǐng)先地位。其中瀾起科技布局 PCIe 較早,是全球可量產(chǎn) PCIe 4.0 Retimer 的唯一中國(guó)大陸供應(yīng)商,且目前 PCIe 5.0 Retimer 研發(fā)順利。

此外,包括瑞薩,TI,微芯 科技等在內(nèi)的芯片廠商也在積極投入 PCIe Retimer 的產(chǎn)品研發(fā)中。根據(jù)官網(wǎng)信息,瑞薩可提供包括 89HT0816AP 和 89HT0832P 在內(nèi)的兩款 PCIe 3.0 Retimer產(chǎn)品;TI 可提供一款 16Gbps 8 通道 PCIe 4.0 Retimer——DS160PT801;同樣地,微芯科技于 2020 年 11 月發(fā)布 XpressConnect 系列 Retimer 芯片,可支持PCIe 5.0 的 32GT/s 速率。
2、GPU與 GPU連接:NVLink、NVSwitc h
全球各大芯片廠商均在關(guān)注高速接口的相關(guān)技術(shù),除了 NVDIA 的 NVLink 之 外,AMD 的 Infinity Fabric 和 Intel 的 CXL(Compute Express Link)等也為服務(wù)器內(nèi)部的高速串聯(lián)提供了解決方案。

不斷迭代更新的 NVlink 掀起高速互聯(lián)技術(shù)革命。 NVLink 是一種由 NVIDIA 開(kāi)發(fā)的高速互連技術(shù),旨在加快 CPU 與 GPU、GPU 與 GPU 之間的數(shù)據(jù)傳輸速度,提高系統(tǒng)性能。從 2016 年到 2022 年,NVLink 已經(jīng)迭代至第四代。
2016 年,NVDIA 發(fā)布了 Pascal GP100 GPU 所搭載的新的高速接口芯片— — NVLink , 這 是 第 一 代 NVLink 。NVLink 采 用 High-Speed Signalinginterconnect(NVHS)技術(shù),主要用于 GPU 與 GPU 之間、GPU 與 CPU 之間的信號(hào)傳輸。GPU 之間傳輸 NRZ(Non-Return-to-Zero)編碼形式的差分阻抗電信號(hào)。第一代NVLink單鏈可實(shí)現(xiàn)40 GB/s的雙向帶寬,單芯片可支持4鏈路,即 160 GB/s 的總雙向帶寬。

此后,NVLink 歷經(jīng)多次迭代更新,掀起了高速互聯(lián)技術(shù)革新浪潮。2017 年, 基于 Volta 架構(gòu)的第二代 NVLink 發(fā)布,單鏈可實(shí)現(xiàn) 50 GB/s 的雙向帶寬,單芯片可支持 6 鏈路,即 300 GB/s 的總雙向帶寬。2020 年,基于 Ampere 架構(gòu)的第三代 NVLink 發(fā)布,單鏈可實(shí)現(xiàn) 50 GB/s 的雙向帶寬,單芯片可支持 12 鏈路,即 600 GB/s 的總雙向帶寬。2022 年,基于 Hopper 架構(gòu)的第四代 NVLink 發(fā)布,傳輸信號(hào)變?yōu)?PAM4 調(diào)制電信號(hào),單鏈可實(shí)現(xiàn) 50 GB/s 的雙向帶寬,單芯片可支持 18 鏈路,即 900 GB/s 的總雙向帶寬。
2018 年 NVDIA 發(fā)布了第一代 NVSwitch,為提高服務(wù)器內(nèi)部帶寬、降低延 遲、實(shí)現(xiàn)多 GPU 間通信提供了解決方案。第一代 NVSwitch 采用臺(tái)積電 12nmFinFET 工藝制造,共有 18 個(gè) NVLink 2.0 接口。一臺(tái)服務(wù)器內(nèi)部可以通過(guò) 12 個(gè)NVSwitch 支持 16 個(gè) V100 GPU,實(shí)現(xiàn)以 NVLink 最高速率互聯(lián)。

目前 NVSwitch 已經(jīng)迭代至第三代。第三代 NVSwitch 采用 TSMC 4N 工藝 構(gòu)建,每個(gè) NVSwitch 芯片上擁有 64 個(gè) NVLink 4.0 端口,GPU 間通信速率可達(dá) 900GB/s,這些通過(guò) NVLink Switch 互聯(lián)的 GPU 可用作單個(gè)高性能加速器,擁有深度學(xué)習(xí)的功能。
3、CPU 與 DRAM高速互聯(lián),拉動(dòng)內(nèi)存接口芯片
服務(wù)器內(nèi)存模組主要類型為 RDIMM、LRDIMM ,相較于其他類型內(nèi)存模 組,服務(wù)器內(nèi)存模組對(duì)穩(wěn)定性、糾錯(cuò)能力以及低功耗均有較高要求。 內(nèi)存接口芯片是服務(wù)器內(nèi)存模組的核心邏輯器件 ,是服務(wù)器 CPU 存取內(nèi)存數(shù)據(jù)的必由通路。 其主要作用是提升內(nèi)存數(shù)據(jù)訪問(wèn)的速度及穩(wěn)定性,滿足服務(wù)器 CPU 對(duì)內(nèi)存模組日益增長(zhǎng)的高性能及大容量需求。

從 DDR4 至 DDR5,內(nèi)存接口芯片速率持續(xù)升級(jí) 。2016 年開(kāi)始,DDR4 成 為內(nèi)存市場(chǎng)的主流技術(shù),為了實(shí)現(xiàn)更高的傳輸速率和支持更大的內(nèi)存容量,JEDEC 組織進(jìn)一步更新和完善了 DDR4 內(nèi)存接口芯片的技術(shù)規(guī)格。在 DDR4 世代,從 Gen1.0、Gen1.5、Gen2.0 到 Gen2plus,每一子代內(nèi)存接口芯片所支持的最高傳輸速率在持續(xù)上升,DDR4 最后一個(gè)子代產(chǎn)品 Gen2plus 支持的最高傳輸已達(dá) 3200MT/s。隨著 JEDEC 組織不斷完善對(duì) DDR5 內(nèi)存接口產(chǎn)品的規(guī)格定義,DDR5 內(nèi)存技術(shù)正在逐步實(shí)現(xiàn)對(duì) DDR4 內(nèi)存技術(shù)的更新和替代。

目前 DDR5 內(nèi)存 接口芯片已經(jīng)規(guī)劃了三個(gè)子代,支持速率分別是 4800MT/s、5600MT/s、6400MT/s,行業(yè)內(nèi)預(yù)計(jì)后續(xù)可能還會(huì)有 1~2 個(gè)子代。
內(nèi)存接口芯片按功能分為兩類,分別為是寄存緩沖器(RCD)以及數(shù)據(jù)緩沖 器(DB)。 RCD 用來(lái)緩沖來(lái)自內(nèi)存控制器的地址、命令、控制信號(hào),DB 用來(lái)緩 沖來(lái)自內(nèi)存控制器或內(nèi)存顆粒的數(shù)據(jù)信號(hào)。

DDR5 內(nèi)存模組升級(jí)帶來(lái)內(nèi)存接口芯片及模組配套芯片新機(jī)遇。 2016 年全 球內(nèi)存接口芯片市場(chǎng)規(guī)模約 2.8 億美元,2018 年達(dá)到約為 5.7 億美元,三年年化增長(zhǎng)率為 40%。DDR5 升級(jí),將帶來(lái)內(nèi)存接口芯片市場(chǎng)規(guī)模攀升。相較于 DDR4, 由于 DDR5 支持速率更高、設(shè)計(jì)更為復(fù)雜, DDR5 第一子代內(nèi)存接口芯片的起始單價(jià)比 DDR4 內(nèi)存接口芯片更高。 同時(shí),隨著 DDR5 內(nèi)存在服務(wù)器、PC 端的滲 透率逐步提升,DDR5 相關(guān)內(nèi)存接口芯片市場(chǎng)規(guī)模有望實(shí)現(xiàn)高速增長(zhǎng)。

內(nèi)存接口芯片行業(yè)壁壘高,三足鼎立格局已經(jīng)形成。 內(nèi)存接口芯片是技術(shù)密 集型行業(yè),需要通過(guò) CPU、內(nèi)存和 OEM 廠商的全方位嚴(yán)格驗(yàn)證后,方可進(jìn)行大規(guī)模使用,新的玩家很難介入。隨著技術(shù)難度不斷升級(jí),內(nèi)存接口芯片玩家從DDR2 世代的 10 多家到 DDR4 世代只剩 3 家,行業(yè)基本出清,三足鼎立格局已經(jīng)形成。在 DDR5 世代,全球只有三家供應(yīng)商可提供 DDR5 第一子代的量產(chǎn)產(chǎn)品,分別是瀾起科技、瑞薩電子(IDT)和 Rambus。
更多InfiniBand技術(shù),請(qǐng)參考文章“ 英偉達(dá)Quantum-2 Infiniband技術(shù)A&Q ”,“ InfiniBand高性能網(wǎng)絡(luò)設(shè)計(jì)概述 ”,“ 關(guān)于InfiniBand和RDMA網(wǎng)絡(luò)配置實(shí)踐 ”,“ 高性能計(jì)算:RoCE v2 vs. InfiniBand網(wǎng)絡(luò)該怎么選? ”,“ 收藏:InfiniBand與Omni-Path架構(gòu)淺析 ”,“ InfiniBand網(wǎng)絡(luò)設(shè)計(jì)和研究(電子書(shū)更新) ”,“ 200G HDR InfiniBand有啥不同? ”,“ Infiniband架構(gòu)和技術(shù)實(shí)戰(zhàn)(第二版) ”,“ 關(guān)于InfiniBand架構(gòu)和知識(shí)點(diǎn)漫談 ”等等。
免責(zé)申明: 本號(hào)聚焦相關(guān)技術(shù)分享,內(nèi)容觀點(diǎn)不代表本號(hào)立場(chǎng),可追溯內(nèi)容均注明來(lái)源,發(fā)布文章若存在版權(quán)等問(wèn)題,請(qǐng)留言聯(lián)系刪除,謝謝。
推薦閱讀 更多架構(gòu)相關(guān)技術(shù)知識(shí)總結(jié)請(qǐng)參考“架構(gòu)師全店鋪技術(shù)資料打包(全)”相關(guān)電子書(shū)(41本技術(shù)資料打包匯總詳情可通過(guò)“ 閱讀原文 ”獲取)。 全店內(nèi)容持續(xù)更新,現(xiàn)下單“架構(gòu)師技術(shù)全店資料打包匯總(全)”一起發(fā)送“ 服務(wù)器基礎(chǔ)知識(shí)全解(終極版) ”和“存儲(chǔ)系統(tǒng)基礎(chǔ)知識(shí)全解(終極版) ” pdf及ppt版本,后續(xù)可享全店內(nèi)容更新“免費(fèi)”贈(zèng)閱,價(jià)格僅收249元(原總價(jià) 399 元)。
溫馨提示:
掃描 二維碼 關(guān)注公眾號(hào),點(diǎn)擊 閱讀原文 鏈接 獲取“ 架構(gòu)師技術(shù)全店資料打包匯總(全) ” 電子書(shū)資料詳情 。
