美國時間2019年8月7日,AMD終于發(fā)布了代號為Rome的第二代EPYC數(shù)據(jù)中心處理器。
作為數(shù)據(jù)中心領(lǐng)域內(nèi)的首款7nm工藝x86處理器,AMD的本次發(fā)布吸引了包括HPE、Dell、聯(lián)想等全球頂級系統(tǒng)提供商;AWS、Azure、Google Cloud等全球前三的云服務(wù)提供商以及Cray這家頂尖超算制造商登臺助陣,聲勢空前浩大。而面對來自全球隔得的合作伙伴、客戶和媒體,AMD CEO蘇姿豐博士也毫不避諱的表示:AMD要把競爭帶回到數(shù)據(jù)中心市場。
AMD CEO蘇姿豐博士發(fā)表演講
最高64核心、128線程、最高3.4GHz Boost頻率、雙路系統(tǒng)最高4TB內(nèi)存、512MB L3緩存、全線8路DDR4 3200MHz內(nèi)存支持及128 Lane PCI-E 4.0支持讓AMD完全有底氣說出這句話。
由AMD定義的Leadership
而從基礎(chǔ)特性來看,本次發(fā)布的第二代EPYC處理器主要包含三大特點:7nm工藝、Zen 2核心以及Chiplet架構(gòu)。
7nm無敵艦隊的最后一員猛將就位
不得不說,在過去相當長的一段時間內(nèi),AMD都被工藝制程所拖累。究其原因,GF技術(shù)上的常年落后難辭其咎。不過在蘇博士大刀闊斧的改革之下,AMD終于擺脫了GF的束縛,將代工工作交給了技術(shù)更先進的臺積電。于是,我們便看到了Ryzen7 3000系列處理器、Radeon RX 5700系列顯卡和此次發(fā)布的第二代EPYC處理器。民用處理器、圖形卡、數(shù)據(jù)中心處理器,AMD的三大支柱業(yè)務(wù)終于全部享受到了7nm所帶來的功耗降低及Die size減小優(yōu)勢。
雖然工藝與制程并不是決定一款芯片的成敗,但其帶來的功耗降低和面積縮減卻讓AMD有機會向更好能效、更多核心、更高頻率發(fā)起沖擊。而這些正是AMD重新站上擂臺與Intel正面交鋒的先決條件。
Chiplet架構(gòu)——對芯片的全新理解
所謂chiplet就是將以往CPU設(shè)計中傳統(tǒng)的單Die設(shè)計思路徹底拋棄,進而將不同功能的部分單獨進行設(shè)計與制造;模塊之間通過專門的互聯(lián)器件和埋線技術(shù)來進行數(shù)據(jù)交換。
AMD引以為傲的Chiplet設(shè)計
目前,在Rome中,AMD采用了Core與IO分離的設(shè)計思路;在處理器最中間是集成了內(nèi)存控制器、PCI-E 4.0控制器、內(nèi)部互聯(lián)Infinity Fabric控制器和L3緩存的IO核心,在IO核心周圍則是數(shù)個Core模組(AMD將之稱為CCD,每8個核心和一個Infinity Fabric為一組,64核產(chǎn)品只需要在IO核心周圍排布8個Core模組)。這種設(shè)計思路有幾個好處:
其一,不同部分單獨制造可以有效縮減由良率問題所產(chǎn)生的成本。舉個例子,在相同的技術(shù)條件下,如果同一批次的晶圓會在蝕刻過程中隨機生成20個故障點,在最壞的情況下,這意味著20個die會因此報廢。在采用傳統(tǒng)的大核心設(shè)計中,如果一個晶圓只能切割出100個完整核心,那這20個故障點也就意味著良率最低會降至80%。但在chiplet思路中,AMD可以在相同尺寸的晶圓上構(gòu)建更多的die(與芯片邊長成平方反比),如果將die的邊長縮小一半,那么一個晶圓能夠切割出的die數(shù)量則至少會提升4倍,那么同樣的20個壞點在最壞的情況下也只能讓芯片良率降低至95%。顯然,這會在極大程度上降低AMD的制造成本。
其二,由于不同功能模塊彼此之間完全獨立,所以進行升級或步進都會變得更容易,成本也更低。
第三,這種chiplet思路也允許AMD處理器在片上(on chip而非in chip)整合不同IP、不同公司、不同功能、不同工藝的芯片,從而快速制造出符合市場需求的全新處理器或SOC。
對于處理器來說,chiplet是一種相當先進的設(shè)計思路,能夠大大降低成本,簡化新產(chǎn)品的上市流程。不過chiplet也并非萬能的,想要做好高性能的CPU產(chǎn)品,AMD或者臺積電需要解決封裝工藝上的諸多挑戰(zhàn),例如互聯(lián)導(dǎo)體的電氣性能、在更小的截面積上實現(xiàn)更高的數(shù)據(jù)帶寬、如何在有效的面積上布置更多針腳等等。不過,既然Rome已經(jīng)能夠在這一框架下實現(xiàn)3.4GHz的頻率和最高225W的TDP,那么AMD和臺積電顯然在這方面已經(jīng)獲得了不少成功??梢哉f第二代EPYC是目前chiplet模式中性能最高、功耗最高、頻率最高的一種形式,個中挑戰(zhàn)不言而喻。
Zen 2架構(gòu)帶來的驚喜
第二代EPYC的CPU設(shè)計架構(gòu)
有了EPYC一代的良好開頭,AMD顯然已經(jīng)找到了正確的架構(gòu)設(shè)計方向,并在第二代EPYC中進行了更加大刀闊斧特性增強。這其中就包括名為TAGE的全新分支預(yù)測架構(gòu)、2倍的OP緩存容量、經(jīng)過優(yōu)化的L1指令緩存、幾乎倍增的L1帶寬、第三代地址單元、2倍的浮點路徑帶寬以及2倍的L3緩存容量。
這種大刀闊斧的的性能架構(gòu)增強所帶來的則是23%的核心執(zhí)行效率提升。而配合8路DDR4 3200內(nèi)存通道和最高4TB的內(nèi)存支持容量(每核心最高64GB內(nèi)存),AMD在很多對內(nèi)存性能敏感的應(yīng)用中都可以取得性能優(yōu)勢。在發(fā)布會當天,蘇姿豐博士表示:通過使用第二代EPYC處理器,AMD的合作伙伴和用戶已經(jīng)打破了全球80項性能記錄。
PCI-E 4.0,威力倍增器
同時,第二代EPYC還是目前全球第一款支持PCI-E 4.0的x86處理器。2倍于PCI-E 3.0的帶寬能夠讓高數(shù)據(jù)吞吐量的設(shè)備獲得更好的性能。
支持PCI-E 4.0的賽靈斯ALVEO U50網(wǎng)絡(luò)加速卡
博通200G以太網(wǎng)卡
Mellanox ConnectX-6 200G Infiniband網(wǎng)卡
雖然目前的多數(shù)應(yīng)用形態(tài)(GPU、加速卡、網(wǎng)卡、HBA等)還無法充分享受到帶寬翻倍所帶來的性能提升,但對某些高吞吐量的FPGA(例如應(yīng)用在Spark Quary上的賽靈斯ALVEO U50)來說,更高的PCI-E總線帶寬顯然可以極大的提升單卡性能(在現(xiàn)場演示中,賽靈斯Spark Quary加速卡在換裝PCI-E 4.0總線后數(shù)據(jù)吞吐量可提升1.7倍)。
另外,對于下下代(就目前而言,100G網(wǎng)卡屬于剛剛推向市場的下一代產(chǎn)品,那么200G自然就是下下代了)網(wǎng)絡(luò)來說,200G網(wǎng)卡也是需要PCI-E 4.0來作為總線的(100G網(wǎng)卡換算來的總線帶寬為12.8GB,剛好達到PCI-E 3.0 x16的上限,200G網(wǎng)卡自然就需要帶寬翻倍的PCI-E 4.0了)。在演示中,博通的200G網(wǎng)卡在PCI-E 4.0 x16環(huán)境下的一對一雙向讀測試中,數(shù)據(jù)吞吐量就可以直接從192Gbps翻倍為381Gbps,性能提升立竿見影。
Mellanox的ConnectX-6 200G Infiniband網(wǎng)卡也有著類似的表現(xiàn),一對一雙向?qū)憸y試從202Gbps提高至395Gbps。
當然,隨著閃存技術(shù)和主控性能的進一步增強,PCI-E 4.0對于很多高性能NVMe存儲設(shè)備來說同樣有著長遠的意義(當然,如果需要進入全面應(yīng)用的話PCI-E 4.0 Switch及配套的標準也同樣需要跟進和成熟)。
由于PCI-E 4.0控制器被集成在了IO核心之中,而所有產(chǎn)品的IO核心都完全一樣,因此,無論多少核心、頻率如何的第二代EPYC產(chǎn)品,其最大支持的PCI-E 4.0 Lane數(shù)都為128(注意,即便是在雙路系統(tǒng)中,在安裝了兩顆第二代EPYC之后,這一數(shù)量也不會翻倍;AMD給出的解釋是IO核心需要將一定數(shù)量的Infinity Fabric連接留給核心之間的通訊)。
但無論如何,這樣的設(shè)計顯然會給很多超融合、冷存儲、防火墻、AI集群等應(yīng)用等很多CPU負載不高的應(yīng)用一個更高性價比的選擇。
生態(tài)之役將成勝敗關(guān)鍵
在性能和功能上的巨大飛躍讓AMD在產(chǎn)品端有能力重回數(shù)據(jù)中心主流市場。但十余年的落后卻讓AMD在生態(tài)上還有很多課要補,而這絕非像產(chǎn)品發(fā)布一樣一蹴而就的事。
60+合作伙伴
在發(fā)布環(huán)節(jié),HPE、Dell、新華三、思科、超微、華碩、技嘉、華擎、泰安主板、Open 19等企業(yè)和組織就已經(jīng)展示了自己的產(chǎn)品和設(shè)計,而在用戶層面,包括AWS、Azure、Google Cloud等在內(nèi)的三大云服務(wù)提供商也排除高管為AMD站臺。而在國內(nèi),包括BAT在內(nèi)的三大云巨頭也都與AMD就第二代EPYC的應(yīng)用展開了積極的合作(新華三產(chǎn)品已經(jīng)就緒并在會議現(xiàn)場進行了展示)。但壯觀的合作伙伴名單對于數(shù)據(jù)中心應(yīng)用來說卻仍然不夠。
AMD EPYC的優(yōu)勢應(yīng)用領(lǐng)域
除了系統(tǒng)制造商合作伙伴和用戶之外,EPYC系列想要幫助AMD重新回到游戲還需要大量數(shù)據(jù)中心組件、操作系統(tǒng)、應(yīng)用軟件以及開源標準的支持。在AMD非公開展示的合作伙伴名錄中,我們已經(jīng)能夠看到像三星、鎂光、現(xiàn)代、西部數(shù)據(jù)這樣的主流閃存和主控制造商,PMC這樣的主控制造商,博通、Mellanox這樣的網(wǎng)絡(luò)設(shè)備制造商,微軟、SUSE、紅帽這樣的操作系統(tǒng)提供商,SAP、Oracle、MongoDB、VMware、思杰這樣的企業(yè)核心應(yīng)用提供商以及如OpenStack、Docker、Spark、Java等開源組織的支持,但這對于整個數(shù)據(jù)中心生態(tài)來說仍舊是不夠的。
那么,什么時候才算是構(gòu)建了完整的企業(yè)級生態(tài)?我想應(yīng)該是不需要或者無法提供合作企業(yè)名單的時候才算夠吧。而AMD距離這一狀態(tài)還有很長的路要走。
如果AMD能夠在未來的數(shù)代產(chǎn)品找那個保持這種性能、核心數(shù)量、特性上的領(lǐng)先(或者至少持平),那么相信主動對AMD伸出橄欖枝的合作伙伴會越來越多,AMD的生態(tài)亦會越來越強大。而那時,AMD才能重新將競爭帶向Intel的城門口。
不過話又說回來,更多核心、更高頻率、更先進制程、Chiplet架構(gòu)等的出現(xiàn)標志著AMD已經(jīng)在向正確的方向發(fā)展。而這也讓我們對EPYC系列和AMD在數(shù)據(jù)中心領(lǐng)域未來的發(fā)展充滿了期待。