Arm發(fā)布全新CPU/GPU IP:Cortex-X3性能提升34%,新旗艦GPU可支持光線追蹤
去年5月,Arm發(fā)布了第一代基于64位ARMv9指令集的處理器IP:超大核心Cortex-X2、高性能大核心Cortex-A710,高能效小核心Cortex-A510。同時,Arm還發(fā)布了三款Mali GPU IP——Mali G710/G510/G310。
時隔1年之后,6月28日,Arm帶來了全新的Arm IP組合,其中包括第二代的ARMv9 CPU內(nèi)核Cortex-X3和Arm Cortex-A715,并對Cortex-A510和 DSU-110(DynamIQ 共享單元)進行了重要更新,提升了Cortex-A510的能效表現(xiàn),同時DSU-110最高可支持12核心。

Arm表示,新的 Armv9 CPU 展示了其對釋放計算性能的承諾,旨在突破峰值性能的極限并提供卓越的持續(xù)性能和效率。
同時,新的Armv9 CPU和對Arm Cortex-A510與DSU-110的更新構(gòu)成了Arm新的全面計算解決方案 (TCS22)的基礎(chǔ)。
Arm全面計算戰(zhàn)略植根于開發(fā)者可及性、安全性和計算性能,旨在為所有消費級設(shè)備市場提供優(yōu)異的性能表現(xiàn)。通過優(yōu)化的系統(tǒng)設(shè)計和實施,助力合作伙伴不斷突破極限。
與此同時,Arm還推出了全新的旗艦級GPU產(chǎn)品 Arm Immortalis。這是首款可在移動端支持基于硬件的光線追蹤的 GPU,可提供更為真實的沉浸式游戲體驗。
Cortex-X3:性能最高提升34%
作為Arm面向超高性能市場的第三代Cortex-X系列CPU IP,Cortex-X3同樣是一款面向旗艦級智能手機/平板或筆記本產(chǎn)品的CPU IP,相比上一代的Cortex-X2來說,Cortex-X3帶來了雙位數(shù)(相同工藝制程下大約提升了11%)的IPC性能提升。
具體來說,如果是應(yīng)用在旗艦級Android智能手機/平板電腦上,Cortex-X3相較最新旗艦設(shè)備將可帶來25%的性能提升;如果是應(yīng)用在Windows on Arm筆記本電腦設(shè)備上,Cortex-X3相較最新主流設(shè)備則可帶來34%的性能提升。

雖然,Arm并沒有介紹Cortex-X3的具體能耗表現(xiàn),但是根據(jù)Arm提供的一張圖顯示,在SPECint_base2006測試下,在相同的性能水平,Cortex-X3的功耗通常要高于Cortex-X2。雖然在最高性能下,Cortex-X3的功耗更高,但是性能提升的幅度要比功耗提升的幅度更高。這也意味著Cortex-X3的能效表現(xiàn)比Cortex-X2更好。

根據(jù)Arm向媒體透露的數(shù)據(jù)顯示,Coretx-X3內(nèi)核(按照時鐘頻率相當于3.6GHz、擁有1MB L2 和 16MB L3緩存進行模擬)的峰值性能要比今年英特爾中高端 Core i7-1260P處理器的P核(性能內(nèi)核)高出34%。而這一數(shù)據(jù)是基于在SPECRate2017_int_base 單線程基準測試中得出的。不過,如果與蘋果的M系列的高性內(nèi)核似乎仍有差距。
相比前代產(chǎn)品來說,Cortex-X3內(nèi)核之所以能夠?qū)崿F(xiàn)在IPC性能上的大幅提升,主要得益于其核心前端的大量優(yōu)化工作,比如改進了分支預(yù)測準確性,并帶來了更低的延遲,這要歸功于用于間接分支(帶指針的分支)的新的專用結(jié)構(gòu)。同時,L1/L2分支目標緩沖區(qū) (BTB) 也顯著增加了50%,L0 BTB 容量更是達到了原來的10倍,并允許預(yù)測器提前獲取更多指令以利用更大的BTB。
此外,Cortex-X3還擁有一個比Cortex-X2要小50%(與 X1 相同的 1.5K 條目),但是卻更高效的微操作(解碼指令)緩存,這要歸功于減少抖動的改進填充算法。這種較小的 mop 緩存還允許 Arm 將總流水線深度從 10 個周期減少到 9 個周期,從而減少發(fā)生分支錯誤預(yù)測和刷新流水線時的懲罰。

不過,如果要與英特爾在筆記本電腦市場競爭,Arm芯片設(shè)計廠商需要集成更多的Cortex-X3內(nèi)核以及其他效率內(nèi)核進行組合。比如英特爾新的面向輕薄筆記本電腦的28瓦處理器,就擁有四個性能內(nèi)核和八個效率內(nèi)核。
對此,Arm也對于此前的推出的DynamIQ 共享單元DSU-110進行了升級,使得Arm芯片設(shè)計廠商能夠?qū)⒆疃?2個Cortex-X3內(nèi)核或其他內(nèi)核整合到一個處理器當中(此前最多只支持8個內(nèi)核),并支持高達 16MB 的 L3 緩存。同時具有最新的 ISA 功能。
Arm 產(chǎn)品管理高級總監(jiān) Saurabh Pradhan表示,“這些變化提高了我們合作伙伴的靈活性,并提供了資源來充分發(fā)揮Arm CPU 的潛力,從而改善用戶體驗。我們的合作伙伴現(xiàn)在可以針對具有新配置(例如 8 個 Cortex-X3 CPU 內(nèi)核和 4 個 Cortex-A715 CPU 內(nèi)核)的高端筆記本電腦設(shè)備,解鎖新一代消費設(shè)備。”

Cortex-A715:高性能與高能效的平衡
Cortex-A715是Arm在去年推出的高性能大核心Cortex-A710的繼任者,主要面向需要兼顧高性能和能效的移動設(shè)備。需要指出的是,Cortex-A715僅支持AArch64 64位指令而不再兼容32位,而此前的Cortex-A710則保留了對于32位的兼容。
具體性能及能效表現(xiàn)上,Arm表示,在相同主頻和相同制造工藝的情況下,Cortex-A715 的性能比 Cortex-A710 提高了5%。雖然這樣的性能提升幅度遠低于之前Cortex-A710相比Cortex-A78的性能提升的幅度(10%)高出 10%。值得可喜的是,Cortex-A715 的效能比Cortex-A710提升了20%,這意味著Cortex-A715在性能保持提升的同時,功耗能夠大幅降低,提升設(shè)備的續(xù)航時間。

Arm表示,Cortex-A715在能效上的大幅提升,將推動其成為 big.LITTLE CPU 集群當中的CPU內(nèi)核集群主力。
新版Cortex-A510:功耗進一步降低
除了新的CPU內(nèi)核之外,Arm還對去年的推出的Armv9 CPU內(nèi)核Cortex-A510進行了更新,這個小核CPU主要面向高能效、低功耗而設(shè)計。Arm在保持了2021版本Cortex-A510性能的基礎(chǔ)上,提升了能效表現(xiàn),使得其功耗進一步降低了5%。

Arm表示,我們將小核CPU的終極效率推向了全新的高度,更低的功耗意味著終端設(shè)備可以獲得更長的電池續(xù)航時間。
第二代Armv9的安全演進
Arm通過第二代 Armv9 CPU,引入了全新的非對稱內(nèi)存標記擴展 (MTE) 和增強的特權(quán)訪問永不 (EPAN),以改進訪問控制。
MTE 檢測可防止整個系統(tǒng)的內(nèi)存安全漏洞,為應(yīng)用程序開發(fā)人員提供上市時間優(yōu)勢。支持 MTE 的設(shè)備可以快速有效地識別代碼中的緩沖區(qū)溢出和堆損壞。
非對稱 MTE 在這些安全漏洞的速度、精度和目標之間提供了更高的靈活性。這有利于軟件開發(fā)與更穩(wěn)定的應(yīng)用程序,同時也使 MTE 能夠在整個生態(tài)系統(tǒng)中更廣泛地推出。

全新旗艦系列GPU:Immortalis-G715,支持光線追蹤
一直以來,Arm每年都會更新其Mali系列GPU,Mali系列GPU也是迄今為止全球出貨量最大的 GPU,目前已達到了80億個。但是今年,Arm意外的推出了名為“Immortalis”的全新旗艦系列GPU,旨在為旗艦級智能手機提供最高性能和最佳圖形性能,最卓越的游戲體驗。
作為“Immortalis”系列的首款產(chǎn)品——Immortalis-G715,相比前代的Mali-G715 GPU帶來了諸多的改進和新的功能。其中,包括用于顯著節(jié)能和進一步提升游戲性能的可變速率著色 (Variable Rate Shading) 圖形功能,以及改進的執(zhí)行引擎,并在硬件層面支持光線追蹤,支持超過10個內(nèi)核以上的組合。Mali-G715只支持7-9 個內(nèi)核,Mali-G615僅支持最多6個核心。

具體來說,所謂“可變速率著色”是一種新的圖形功能,它通過優(yōu)化渲染在圖形和視覺效果方面提供顯著的節(jié)能和性能提升。從本質(zhì)上講,它需要一個場景并將渲染集中在需要它的部分上,并以精細的像素粒度進行渲染。通常,這將是游戲動作發(fā)生的地方。需要較少焦點的區(qū)域(例如背景風(fēng)景)以更粗的像素粒度進行渲染。如下圖所示,游戲場景仍將保持其感知的視覺質(zhì)量,但會節(jié)省能源。在游戲內(nèi)容上啟用可變速率著色時,我們看到每秒幀數(shù) (FPS) 提高了 40%。

在執(zhí)行引擎上,Arm重新設(shè)計了執(zhí)行引擎的關(guān)鍵元素,以提高計算能力和能源效率。與上一代 Mali GPU 相比,我們重新設(shè)計了Immortalis-G715的轉(zhuǎn)換塊以顯著減少面積。Arm還重新審視了在 Mali-G710 中重新調(diào)整的融合乘加 (FMA),以進一步提高電源效率。此外,Arm將 FMA 模塊增加了一倍,以進一步提高功率,以提供更高級視覺效果所需的計算。最后,Arm還增加了對矩陣乘法指令的支持,這對于計算攝影和圖像增強等移動用例至關(guān)重要,以幫助實現(xiàn) 2 倍的架構(gòu) ML 改進。
通過所有這些變化,我們可以巧妙地提高功率,將 FMA 功率提高 2 倍,但面積僅增加 27%。從本質(zhì)上講,Arm將計算能力提高了一倍,而硅面積只是適度增加。

除了執(zhí)行引擎之外,Arm還在新 GPU 的其他領(lǐng)域進行了 PPA(性能、功耗和面積)改進。
命令流前端(去年隨 Mali-G710 推出的一項功能)已變得更快。這是通過添加基于硬件的跨流同步、添加更多本機命令和增加記分板數(shù)量來實現(xiàn)的。峰值三角形吞吐量增加了兩倍。Arm優(yōu)化了紋理映射器中的顯式 LOD(細節(jié)級別)查找以使吞吐量翻倍,并添加了坐標預(yù)處理器單元以提高立方體貼圖查找的效率。最后,Arm將 Arm 固定速率壓縮 (AFRC) 技術(shù)(在去年的主流 Arm Mali-G510 GPU 中首次引入)添加到我們的新 GPU 中以節(jié)省帶寬。
具體性能表現(xiàn)上,Immortalis-G715與上一代高級和次高級 Mali GPU 相比,僅微架構(gòu)的性能就提高了15%。此外,Immortalis-G715還將帶來2倍的機器學(xué)習(xí)性能的提升,15%的能效提升。

Arm表示,Immortalis-G715 GPU的能效提升是建立在Arm Mali-G710 GPU的高能效基礎(chǔ)之上的。根據(jù)Arm公布的數(shù)據(jù)顯示,Mali-G710在旗艦和高端Android智能手機上提供出色的 GPU 效率,在包括高級 AAA 游戲、基準測試和輕型工作負載在內(nèi)的各種內(nèi)容中,Mali-G710 在峰值和持續(xù)工作負載方面均以 FPS/W 的速度擊敗了競爭對手。

近年來,隨著手機游戲市場的持續(xù)增長,更復(fù)雜和身臨其境的 AAA 游戲體驗現(xiàn)在在移動設(shè)備上越來越常見。領(lǐng)先的 AAA PC 和主機游戲都有移動版本,包括 Genshin Impact、PUBG、Fortnite、使命召喚和王者榮耀等等。此外,新一代用戶越來越多地選擇移動設(shè)備作為他們首選的游戲平臺。這主要是由于移動設(shè)備上游戲的便利性和功能。

去年,Arm推出的Mali-G710 GPU已經(jīng)支持基于軟件實現(xiàn)的光線追蹤效果。聯(lián)發(fā)科也已經(jīng)在其旗艦產(chǎn)品天璣9000中利用了這一功能,通過移動端光線追蹤SDK,將光線追蹤技術(shù)引入到手機端,但是其是通過軟件的形式來實現(xiàn)的,不僅會帶來較大的功耗,同時所帶來的光線追蹤體驗提升也相對有限。
而此次Arm推出的Immortalis-G715 GPU則是直接在硬件層面加入了對于光線追蹤技術(shù)的支持,在大幅提升游戲體驗的同時,功耗也得到了進一步控制。
根據(jù)Arm公布的數(shù)據(jù)顯示,Immortalis-G715 上的光線追蹤僅使用了 4% 的著色器核心區(qū)域,同時通過硬件加速實現(xiàn)了 300%以上的性能提升。

Arm認為,光線追蹤代表了移動游戲內(nèi)容的范式轉(zhuǎn)變。因此決定在 Immortalis-G715 上引入基于硬件的光線追蹤支持,因為合作伙伴也已經(jīng)準備好,硬件已經(jīng)準備好,并且開發(fā)者生態(tài)系統(tǒng)已經(jīng)或即將準備就緒。
Arm稱,當Immortalis-G715 于 2023 年初出現(xiàn)在旗艦智能手機中時,這將是生態(tài)系統(tǒng)開始探索其游戲內(nèi)容的光線追蹤技術(shù)的基礎(chǔ)。隨著未來幾年技術(shù)的不斷發(fā)展,這將有助于為在移動設(shè)備上運行的游戲全面過渡到光線追蹤做好準備。
Arm全面計算解決方案 (TCS22)
在推出以上CPU IP的基礎(chǔ)上,Arm宣布推出 2022 全面計算解決方案 (Total Compute Solutions 2022,TCS22),即利用以上IP組合實現(xiàn)CPU內(nèi)核間以及與GPU之間的進一步的協(xié)同計算,可提供不同級別的性能、效率和可擴展性,以完善各類終端市場的用戶體驗。

作為 TCS22 的一部分,Cortex-X3、Cortex-A715、Cortex-A510 CPU內(nèi)核,以及Mali GPU、Immortalis GPU可以配對組合使用,以應(yīng)對不同的終端需求。
Arm計劃通過其TCS22計劃向客戶提供一系列“專用”芯片設(shè)計配置,將各種技術(shù)結(jié)合在一起,包括其不斷擴大的CPU和GPU 設(shè)計組合。
據(jù)了解,TCS22 的 Arm IP 組合可在一系列工作負載中實現(xiàn) 28% 的性能提升,并可降低 16% 的能耗。
Arm表示,其全面計算戰(zhàn)略植根于開發(fā)者可及性、安全性和計算性能,旨在為所有消費級設(shè)備市場提供優(yōu)異的性能表現(xiàn)。通過優(yōu)化的系統(tǒng)設(shè)計和實施,助力合作伙伴不斷突破極限。
編輯:芯智訊-浪客劍
臺灣76家半導(dǎo)體上市公司平均薪資曝光:最高人均138.2萬元/年!聯(lián)發(fā)科第3,臺積電排名19!
首次進入頭部汽車品牌,聞泰科技智能汽車戰(zhàn)略浮出水面
中芯國際:結(jié)構(gòu)性短缺將持續(xù),堅定支持設(shè)備材料國產(chǎn)化!
龍芯登陸科創(chuàng)板:2021年凈利暴漲227.8%!與MIPS知識產(chǎn)權(quán)相關(guān)訴訟仍在繼續(xù)
前臺積電廠長+前爾必達社長!昇維旭擬建12吋DRAM廠,計劃2024年1季度試產(chǎn)
10Gbps!全球最快!國產(chǎn)最強LPDDR5/5X接口IP成功量產(chǎn)!
2021年全球NOR Flash市場:兆易創(chuàng)新收入暴增100%,份額升至23.2%!
2022中國大學(xué)專業(yè)排名公布:集成電路相關(guān)專業(yè)哪家強?
行業(yè)交流、合作請加微信:icsmart01
芯智訊官方交流群:221807116
