在近日召開的 GTC 2022 春季大會上,英偉達隆重發(fā)布了新一代以太網(wǎng)平臺 NVIDIA Spectrum-4。該平臺由 NVIDIA Spectrum-4 交換機系列、ConnectX-7 智能網(wǎng)卡、NVIDIA BlueField-3 DPU 和 DOCA 數(shù)據(jù)中心基礎設施軟件組成,能夠大幅加速大規(guī)模云原生應用。
作為全球首個 400Gbps 端到端網(wǎng)絡平臺,NVIDIA Spectrum-4 的單芯片交換吞吐量達到了51.2Tbps,比上一代產(chǎn)品高出 4 倍,能夠為規(guī)模大數(shù)據(jù)中心基礎設施提供超高的網(wǎng)絡性能和強大的安全性。由 Spectrum-4 加持的 SN5000 交換機,最高可以支持 128 個 400GbE 端口或 64 個 800GbE 端口。
為了實現(xiàn)更好的 AI 智能管理運維,NVIDIA Spectrum-4 還優(yōu)化了 RoCE 網(wǎng)絡架構,并提供自適應路由(Adaptive Routing)和增強擁塞控制。其加密帶寬不但達到了令人驚嘆的12.8Tbps,而且還可以支持硬件級 MACsec 和 VXLANsec。這樣一來,搭載了 NVIDIA Spectrum-4 的數(shù)據(jù)中心不僅各種應用跑得更加暢快,而且在網(wǎng)絡與安全性能上也有了更加可靠的保障。
值得一提的是,考慮到不同企業(yè)的實際情況,NVIDIA 還為用戶準備了全系列的智能網(wǎng)卡,實現(xiàn)了從 10G 到 400G 速率的全覆蓋(10/25/40/50/100/200/400G),并且提供了包括 Cumulus Linux、Mellanox 系列產(chǎn)品在內的豐富網(wǎng)絡 OS、軟件及工具。英偉達收購 Mellanox 和 Cumulus Networks 所產(chǎn)生的巨大價值,也在 NVIDIA Spectrum-4 身上得到了極佳的展現(xiàn)。

全球以太網(wǎng)市場的三強聯(lián)姻
英偉達很早就意識到,再強大的算力也需要穩(wěn)定可靠的網(wǎng)絡來提供支撐。因此要想在企業(yè)級市場打造端到端的產(chǎn)品和解決方案,強大的網(wǎng)絡能力可以說至關重要。
于是我們看到,在全球以太網(wǎng)市場一直處于領先地位的英偉達,先是在 2019 年 3 月斥資69 億美金,收購了全球服務器和存儲端到端連接解決方案的領先供應商 Mellanox。此舉不僅讓英偉達擁有了超高端計算環(huán)境下的網(wǎng)絡互聯(lián)能力,而且也在全球數(shù)據(jù)中心和 HPC 網(wǎng)絡市場占據(jù)了一席之地。
緊接著,英偉達又在 2020 年 5 月收購了全球知名的網(wǎng)絡軟件供應商 Cumulus Networks。這在強化英偉達自身網(wǎng)絡軟件實力的同時,還加速開啟了“軟件定義數(shù)據(jù)中心”的全新時代。
通過接連收購 Mellanox 和 Cumulus Networks,英偉達快速消化和吸收了這兩家企業(yè)強大的技術實力、產(chǎn)業(yè)資源與行業(yè)積累,使得這場舉世矚目的三強聯(lián)姻呈現(xiàn)出了“1+1+1>3”的效果。一家集超強算力以及強大端到端聯(lián)接能力于一身的全新英偉達,如今已蔚然成型。

WJH 讓運維管理更加智能
與當前市場上的同類產(chǎn)品相比,英偉達打造的網(wǎng)絡產(chǎn)品及解決方案不僅擁有超強的性能,而且還具備超強的智能,能夠顯著減輕網(wǎng)絡管理運維的工作負荷以及提升運營效率。而這些在網(wǎng)絡市場上獨樹一幟、“人無我有”的人性化智能設計,也成為了其產(chǎn)品最大的亮點。
以 WJH(What Just Happen,故障快照)為例,該技術是英偉達旗下以太網(wǎng)交換機獨有的一種網(wǎng)絡監(jiān)控技術,內建在 ASIC 中提供線速數(shù)據(jù)流監(jiān)控能力。其作用在于可對數(shù)據(jù)在網(wǎng)絡轉發(fā)過程中出現(xiàn)的各種事件進行精確的發(fā)現(xiàn)和定位,幫助網(wǎng)絡使用者和維護者快速發(fā)現(xiàn)和定位網(wǎng)絡中的故障和性能事件,從而提高對網(wǎng)絡的監(jiān)控水平,為故障排除和改進設計提供切實和量化的依據(jù)。
作為一種先進的流式遙測(Streaming Telemetry)技術,WJH 技術的優(yōu)點就在于:它基于事件驅動,通過硬件加速,只保存故障相關數(shù)據(jù)包以及相關細節(jié)。這樣既不會因為模糊統(tǒng)計采樣影響監(jiān)控效果,也不會因為過度采樣而耗盡系統(tǒng)性能,做到了故障分析與性能運行“魚與熊掌兼得”,可以說是相當智能了。
舉例來說,當網(wǎng)管懷疑企業(yè)網(wǎng)絡出現(xiàn)問題時,就需要對采樣的數(shù)據(jù)包進行管理和分類,推斷問題發(fā)生的原因并加以解決。有經(jīng)驗的網(wǎng)管想必都有過親身體驗:在面對大量數(shù)據(jù)包和缺乏精準信息的時候,這個排查過程往往需要耗費幾個小時甚至是幾天的時間。但是如今在 WJH 的幫助下,這類問題可能只需要幾分鐘就可以搞定。WJH 為網(wǎng)絡運維管理帶來的巨大便利,由此也可見一斑。

NetQ 讓網(wǎng)絡故障無處遁形
看到 NetQ 這個名字,熟悉它的小伙伴都能認出它其實就是業(yè)界好評如潮的 Cumulus NetQ,來自被英偉達收購的 Cumulus Networks。
與內建在以太網(wǎng)交換機里的 WJH 相比,作為一種分析工具軟件的 NetQ,可以被企業(yè)用來配合 WJH,收集并分析來自 WJH 的遙測數(shù)據(jù),并且為用戶呈現(xiàn)可視化的分析結果。
事實上,NetQ 的功能還遠不止于此。通過遠程探針、主機代理進行采集與存儲,并分析和處理各類數(shù)據(jù),NetQ 還可以實現(xiàn)全網(wǎng)可觀測性,讓企業(yè)得以更加直觀地發(fā)現(xiàn)和解決各類網(wǎng)絡故障。
舉例來說,當發(fā)現(xiàn)若干臺服務器之間無法通信時,網(wǎng)管往往需要查看各臺服務器的狀態(tài)與多種接口配置、BGP 會話、EVPN 地址族、VLAN 以及 VNI 映射等等,整個排查過程需要耗費的時間,從幾分鐘到幾個小時都有可能。然而借助 NetQ 的驗證和協(xié)議專用選項卡等功能,網(wǎng)管只需輕點幾下鼠標,僅用幾秒鐘就能找到故障原因。

NVIDIA Air 讓數(shù)字孿生大放異彩
“數(shù)字孿生”是當下炙手可熱的焦點話題,而 NVIDIA Air 則是一個創(chuàng)建網(wǎng)絡數(shù)字孿生的免費平臺,可以幫助企業(yè)創(chuàng)造物理網(wǎng)絡的 1:1 的模擬環(huán)境。

通過 NVIDIA Air,企業(yè) IT 團隊可以在 1:1 的模擬環(huán)境中進行無硬件測試/培訓、生產(chǎn)部署預演、新功能的測試與驗證等各種操作。
對于企業(yè)來說,這種數(shù)字孿生模擬環(huán)境可以帶來諸多好處,包括縮短部署時間、減少網(wǎng)絡停機時間、降低實驗室成本、在等待硬件到達時減少對網(wǎng)絡硬件和構建的需求、提高創(chuàng)造力和協(xié)作能力(設計、監(jiān)控、變更管理)、通過提供更多功能提高物理基礎設施的價值、模擬真實的基礎設施、持續(xù)集成……
在 NVIDIA Air 平臺誕生之前,企業(yè)要想搭建模擬環(huán)境是一件非常麻煩的事情,不僅搭建過程耗時耗力,而且測試成本也相當高昂。如今在 NVIDIA Air 的幫助下,企業(yè)可以非常輕松地搭建大規(guī)模的模擬環(huán)境,顯著降低測試成本,并將通過驗證的成功實踐部署到自己的生產(chǎn)環(huán)境中。
RoCE 打造一鍵式快速部署
傳統(tǒng)的以太網(wǎng)端到端 RoCE 部署,需要在所有路徑上的交換機和網(wǎng)卡添加大量的入出向Buffer,流控和 Qos 等配置,同時網(wǎng)工需要針對不同的企業(yè)流量模型和實時變化的業(yè)務流量來不停的調整buffer水線,以期達到最佳的 RoCE 無損網(wǎng)絡效果。同時當 RoCE 流量丟包或者性能下降后,傳統(tǒng)網(wǎng)工也是叫苦不迭,需要進行一臺臺設備排查來縮小范圍,耗時耗力。英偉達交換機結合十幾年的 RoCE 運維部署經(jīng)驗和先進的動態(tài) buffer 共享技術,可以幫助用戶輕松實現(xiàn)完整的端到端一鍵式 RoCE 部署和監(jiān)控,徹底擺脫無損網(wǎng)絡帶來的高技術門檻。
用戶僅需要在交換機敲入”nv set qos roce”一條簡單命令便可輕松實現(xiàn)復雜的 RoCE 部署,并且通過一條 CLI 命令” nv show interface xyz qos roce counters”便可立刻收集到所有接口 RoCE 相關的流量統(tǒng)計,輕松掌控入向和出向的 buffer 水線情況,ECN 和 PFC 流控的報文收發(fā)情況。結合強大的 NETQ 智能網(wǎng)管平臺,用戶還可以通過圖形化界面來實時查看整網(wǎng)拓撲的端到端 RoCE 流量統(tǒng)計和 buffer 監(jiān)控,輕松排查由于 buffer 利用率過載或是流控異常導致某臺交換機 RoCE 流量丟包情況。
結合英偉達先進的 ConnectX 智能網(wǎng)卡,和最新的 RTTCC 往返時間擁塞控制算法,還可幫助用戶在無需交換機配置情況下,快速實現(xiàn)零接觸 RoCE 部署,達到與傳統(tǒng)無損 RoCE 解決方案的相當?shù)男阅堋?/p>
一個網(wǎng)絡新時代的開啟
通過前面列舉的多個范例,我們可以看到,英偉達在其網(wǎng)絡產(chǎn)品及解決方案中的諸多人性化的創(chuàng)新功能設計,不僅通過人工智能技術的深入融合實現(xiàn)了 AI 智能運維管理,而且給傳統(tǒng)的網(wǎng)絡管理運維模式帶來了本質的改變與全新的思路,顯著提升了管理運維的工作效率,大幅節(jié)省了網(wǎng)管的工作時間,降低了企業(yè)的經(jīng)濟成本與開支。
英偉達提供的智能化網(wǎng)絡產(chǎn)品和解決方案,不僅可以將網(wǎng)管從繁重的管理運維工作中解放出來,而且還能夠為企業(yè)帶來多方面的裨益:企業(yè)可以將更多的資源與資金專注于核心業(yè)務的拓展;網(wǎng)管可以有更多的時間與精力學習和探索人工智能、深度學習等新興技術在業(yè)務中的應用與實踐,更好地提升技術能力、提高工作效率;企業(yè)網(wǎng)絡也可以在未來獲得更多的升級與提升空間……
可以預見的是,隨著越來越多人工智能與自動化技術,被深度融合到新一代的網(wǎng)絡產(chǎn)品及解決方案當中,一個明顯有別于傳統(tǒng)以太網(wǎng)的新時代正在徐徐開啟。

特別提醒:本網(wǎng)信息來自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點。其原創(chuàng)性以及文中陳述文字和內容未經(jīng)本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網(wǎng)有任何內容侵犯您的權益,請及時聯(lián)系我們,本站將會在24小時內處理完畢。