

什么是FLOPS
FLOPS,是“每秒所執(zhí)行的浮點運算次數(shù)”(floating-point operations per second) 的縮寫。它常被用來估算電腦的執(zhí)行效能,尤其是在使用到大量浮點運算的科學計算領域中。在這里所謂的“浮點運算”,實際上含括了所有涉及小數(shù)的運算。這類運算在某類應用軟件中常常出現(xiàn),而它們也較整數(shù)運算花時間?,F(xiàn)今大部分的處理器中,都有一個專門用來處理浮點運算的“浮點單元”(FPU)。也因此 FLOPS 所量測的,實際上就是 FPU 的執(zhí)行速度。對于處理器處理浮點運算來說,而最常用來測量 FLOPS 的基準程序 (benchmark) 之一,就是 Linpack。例如:算能公司的“基于SOPHON第三代智算芯片 BM1684”芯片。該款芯片F(xiàn)P32 精度算力也達到 2.2 TFlops,INT8算力可高達17.6Tops,在Winograd卷積加速下,INT8算力更提升至35.2 Tops,是一顆低功耗、高性能的SoC芯片。
BM1684還內(nèi)置了張量計算模塊TPU,該TPU模塊包含64個NPU運算單元,每個NPU包括16個EU單元,總共有1024個EU運算單元。
1TFlops=1024GFlowps,即1T=1024G。各種FLOPS的含義:
- 1) 一個MFLOPS(megaFLOPS)等于每秒1百萬(=10^6)次的浮點運算;
- 2) 一個GFLOPS(gigaFLOPS)等于每秒10億(=10^9)次的浮點運算;
- 3) 一個TFLOPS(teraFLOPS)等于每秒1萬億(=10^12)次的浮點運算;
- 4) 一個PFLOPS(petaFLOPS)等于每秒1千億(=10^15)次的浮點運算。
關于?Linpack
Linpack是國際上使用最廣泛的測試高性能計算機系統(tǒng)浮點性能的基準測試。通過對高性能計算機采用高斯消元法求解一元 N次稠密線性代數(shù)方程組的測試,評價高性能計算機的浮點計算性能。Linpack的結(jié)果按每秒浮點運算次數(shù)(flops)表示。很多人把用 Linpack基準測試出的最高性能指標作為衡量機器性能的標準之一。這個數(shù)字可以作為對系統(tǒng)峰值性能的一個修正。通過測試求解不同問題規(guī)模的實際得分,我們可以得到達到最佳性能的問題規(guī)模,而這些數(shù)字與理論峰值性能一起列在 TOP500列表中。
Linpack 測試包括三類,Linpack100、Linpack1000和HPL。Linpack100求解規(guī)模為100階的稠密線性代數(shù)方程組,它只允許采用編譯 優(yōu)化選項進行優(yōu)化,不得更改代碼,甚至代碼中的注釋也不得修改。Linpack1000要求求解1000階的線性代數(shù)方程組,達到指定的精度要求,可以在 不改變計算量的前提下做算法和代碼上做優(yōu)化。HPL即High Performance Linpack,也叫高度并行計算基準測試,它對數(shù)組大小N沒有限制,求解問題的規(guī)??梢愿淖?,除基本算法(計算量)不可改變外,可以采用其它任何優(yōu)化方 法。前兩種測試運行規(guī)模較小,已不是很適合現(xiàn)代計算機的發(fā)展。HPL是針對現(xiàn)代并行計算機提出的測試方式。用戶在不修改任意測試程序的基礎上,可 以調(diào)節(jié)問題規(guī)模大小(矩陣大小)、使用CPU數(shù)目、使用各種優(yōu)化方法等等來執(zhí)行該測試程序,以獲取最佳的性能。HPL采用高斯消元法求解線性方程組。求解 問題規(guī)模為N時,浮點運算次數(shù)為(2/3 * N^3-2*N^2)。因此,只要給出問題規(guī)模N,測得系統(tǒng)計算時間T,峰值=計算量(2/3 * N^3-2*N^2)/計算時間T,測試結(jié)果以浮點運算每秒(Flops)給出。HPL測試結(jié)果是TOP500排名的重要依據(jù)。計算機計算峰值簡介:衡量計算機性能的一個重要指標就是計算峰值或者浮點計算峰值,它是指計算機每秒鐘能完成的浮點計算最大次數(shù)。包括理論浮點峰值和實測浮點峰值。理論浮點峰值是該計算機理論上能達到的每秒鐘能完成浮點 計算最大次數(shù),它主要是由 CPU的主頻決定的。計算公式如下:?、理論浮點峰值=CPU主頻×CPU每個時鐘周期執(zhí)行浮點運算次數(shù)×CPU數(shù)量。
AI算力評估為什么不用?Linpack
傳統(tǒng)的高性能計算機評測方法和體系與當前人工智能需求的性能并不完全一致。例如,LINPACK是一個目前被廣泛采用的高性能計算機雙精度浮點運算性能基準評測程序,國際超算Top 500榜單依據(jù)LINPACK值來進行排名,而典型的人工智能 應用并不需要雙精度浮點數(shù)運算。大部分人工智能訓練任務以單精度浮點數(shù)或半精度浮點數(shù)為主,推理以Int8為主。對大規(guī)模人工智能算力來說,制定一個簡單有效的指標和測試方法并不是一件容易的事情。首先,大部分單個人工智能訓練任務(例如訓練一個推薦系統(tǒng)或者圖像分類的神經(jīng)網(wǎng)絡模型)達不到全機上百張加速器卡規(guī)模的計算需求。很多人工智能應用,即使使用全機規(guī)模,其訓練時間和準確率也可能沒有改進。其次,如果要測試規(guī)模變化的人工智能集群計算機,測試程序必須能夠規(guī)??勺儭J紫缺仨毭鞔_,什么樣的主流人工智能應用是規(guī)模可以任意調(diào)整的。最后,準確率的判定和計算是大規(guī)模人工智能算力評測與傳統(tǒng)高性能計算基準評測之間的一個顯著區(qū)別。是否需要使殘差小于給定標準,是否要將準確度計入分數(shù)統(tǒng)計,同樣是需要明確的問題。目前,各大企業(yè)、高校和相關組織在人工智能性能基準測試領域已經(jīng)有了很多探索,相繼開發(fā)了各類基準評測程序,比如谷歌等公司主導的MLPerf,小米公司的MobileAI bench,百度公司的DeepBench,中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟的AIIA DNN Benchmark,以及在雙精度的LINPACK基礎上改成混合精度的HPL-AI等。但是這些基準測試方案都不能很好地解決上述問題。根據(jù)MLPerf公開發(fā)表的數(shù)據(jù),MLPerf程序在百張TPU加速卡以上規(guī)模測試下擴展性就會出現(xiàn)下滑,在千張TPU加速卡級別到達評測體系的擴展性瓶頸,該評測程序很難評價不同系統(tǒng)在該規(guī)模下人工智能算力的差異。

MLPerf是一套衡量機器學習系統(tǒng)性能的權威標準,于2018年由谷歌、哈佛、斯坦福、百度等機構(gòu)聯(lián)合發(fā)起成立,每年定期公布榜單成績,它將在標準目標下訓練或推理機器學習模型的時間,作為一套系統(tǒng)性能的測量標準。MLPerf訓練任務包括圖像分類(ResNet50)、目標物體檢測(SSD)、目標物體檢測(Mask R-CNN)、智能推薦(DLRM)、自然語言處理(BERT)以及強化機器學習(Minigo)等。最新的1.0版本增加了兩項新的測試項目:語音識別(RNN-T)和醫(yī)學影像分割(U-Net3D)。在Resnet50訓練中,硬件及設備平臺的選取至關重要。其中磁盤讀取性能、CPU運算性能、內(nèi)存到顯存的傳輸性能以及GPU運算性能對訓練速度的影響都比較大:磁盤讀取性能直接決定訓練數(shù)據(jù)供給的速度;CPU的性能、CPU到GPU的傳輸帶寬以及GPU的性能共同決定了數(shù)據(jù)前處理的速度;而訓練中的前向推理和反向傳播由GPU的性能及GPU之間的數(shù)據(jù)傳輸帶寬決定。如同工廠流水線上的幾名工人,任何一名工人的處理速度跟不上就會導致堆積,成為性能瓶頸,影響最終結(jié)果。因此這幾個重要部分不能有明顯的短板。此時就會用Resnet50模型進行圖片分揀,得出每秒處理圖片數(shù)量作為一個性能指標。
經(jīng)典芯片的算力
以下列出幾個有代表性硬件的每秒浮點運算次數(shù)GFLOPS
Intel Xeon 3.6 GHz: <1.8 GFLOPS
Intel Pentium 4 HT 3.6Ghz: 7 GFLOPS
Intel Core 2 Duo E4300 14 GFLOPS
Intel Core 2 Duo E8400 24 GFLOPS
AMD Phenom 9950: 29.05 GFLOPS
Intel Core 2 Quad Q8200: 37 GFLOPS
Intel Core 2 QX9770: 39.63 GFLOPS
AMD Phenom II x4 955: 42.13 GFlopS
Intel Core i7-965: 69.23 GFLOPS
Intel Core i7-980 XE : 107.6 GFLOPS
Intel Core i5-2500K @4.5GHz: 123.35 GFLOPS (w/AVX instruction set)
IBM POWER7: 264.96GFLOPS[2]
nVIDIA Geforce 8800 Ultra(G80-450 GPU):393.6 GFLOPS
nVIDIA Geforce GTX 280(G200-300 GPU):720 GFLOPS
AMD Radeon HD 3870(RV670 GPU):497 GFLOPS
AMD Radeon HD 4870(RV770 GPU):1008 GFlops
TFLOPS
nVIDIA Geforce GTX 580(GF110-375 GPU):2.37 TFLOPS
AMD Radeon HD 6990(R900 GPU):4.98 TFLOPS
nVIDA Geforce GTX 1070: 6.5 TFLOPS
nVIDA Geforce GTX 1080: 9 TFLOPS
nVIDA Geforce GTX 1080Ti: 10.8 TFLOPS
nIVIDIA Titan Xp : 12.1 TFLOPS
ASCI White:12.3TFLOPS
AMD Vega Frontier Edition : 13.1 TFLOPS
Earth Simulator: 35.61 TFLOPS
Blue Gene/L: 135.5 TFLOPS
中國曙光Dawning 5000A: 230 TFLOPS
PFLOPS
IBM Roadrunner:1.026 PFLOPS
Jaguar:1.75 PFLOPS
天河一號:2.566 PFLOPS
Folding@home運算平臺:4.769 PFLOPS
BOINC運算平臺:6.282 PFLOPS (持續(xù)增加中)
IBM Mira: 8.16 PFLOPS
京:10.51 PFLOPS
IBM Sequoia:16.32 PFLOPS
Cray Titan:17.59 PFLOPS
天河二號:33.86PFLOPS
神威·太湖之光:125PFLOPS
參考“2020年HPC市場總結(jié)和預測報告(附下載)”,2020年HPC市場總結(jié)和預測報告。美國在3大超算系統(tǒng)(Aurora、Frontier和EI Capitan)近兩年投入預算均超過18億美元。
Aurora:英特爾推遲推出7納米的Ponte Vecchio GPU,計劃在Aurora與英特爾Xeon CUP集成,算力>1EF。
Focus on Frontier (CORAL-2):美國第一個Exascale System (由于Aurora延期),第二代AI系統(tǒng);
日本Fugaku超算系統(tǒng)在2020年6月TOP500榜單中位居榜首?;贔ujitsu A64 ARMv8.2處理器,無GPU加速,Linpack (HPL)?測試基準達 415.5 petaflops。
中國三個超算原型機(NUDT、Sugon和Sunway)在開發(fā)中,其中一個或多個原型可能被選擇為充分生產(chǎn)。
歐洲EuroHPC項目于2018年啟動,歐盟32個參與國開發(fā)歐盟范圍內(nèi)高性能計算系統(tǒng),選擇芬蘭卡賈尼,西班牙巴塞羅那和意大利博洛尼亞,投資6.5億歐元實施150,200Pflops系統(tǒng),投資1.8億歐元建設中規(guī)模HPC系統(tǒng)(~4Pflops)
此外,在2022-2023將從采購3個大型系統(tǒng),至少有一個采用歐盟技術(特別是使用EPI處理器);大約在2027年部署首個混合高性能計算/量子基礎設施(Post Exascale System)。
下載鏈接:
SoC芯片研究框架
電子氣體:研究框架
AIoT芯片研究框架
DRAM存儲芯片研究框架
CPU和GPU研究框架合集
信創(chuàng)研究專題框架
異構(gòu)芯片研究框架合集
電源管理芯片研究框架
2021 HPC China大會因特爾方案資料(下)
2021 HPC China大會因特爾方案資料(上)
2020年HPC市場總結(jié)和預測報告
本號資料全部上傳至知識星球,更多內(nèi)容請登錄智能計算芯知識(知識星球)星球下載全部資料。

免責申明:本號聚焦相關技術分享,內(nèi)容觀點不代表本號立場,可追溯內(nèi)容均注明來源,發(fā)布文章若存在版權等問題,請留言聯(lián)系刪除,謝謝。
電子書<服務器基礎知識全解(終極版)>更新完畢,知識點深度講解,提供182頁完整版下載。
獲取方式:點擊“閱讀原文”即可查看PPT可編輯版本和PDF閱讀版本詳情。
溫馨提示:
請搜索“AI_Architect”或“掃碼”關注公眾號實時掌握深度技術分享,點擊“閱讀原文”獲取更多原創(chuàng)技術干貨。
