為了降低內(nèi)部網(wǎng)絡(luò)延遲,提高處理效率,RDMA技術(shù)(Remote Direct Memory Access,遠程直接內(nèi)存訪問)的出現(xiàn)為新興業(yè)務的高效應用提供了新的機遇。RDMA允許用戶態(tài)的應用程序直接讀取和寫入遠程內(nèi)存,無需CPU介入多次拷貝內(nèi)存,并可繞過內(nèi)核直接向網(wǎng)卡寫數(shù)據(jù),實現(xiàn)了高吞吐量、超低時延和低CPU開銷的效果。但是RDMA作為新技術(shù),如何更好的與現(xiàn)有以太網(wǎng)絡(luò)相結(jié)合(RoCE,RDMA over Converged Ethernet,基于融合以太網(wǎng)的RDMA),是一項很大的挑戰(zhàn)。歸根結(jié)底,就是RDMA技術(shù)給數(shù)據(jù)中心網(wǎng)絡(luò)交換體系(RDMA Switch)帶來了全新的變化,為了適應這種變化,有太多的問題亟待解決,包括新協(xié)議、新架構(gòu)、新設(shè)備形態(tài)、新技術(shù)等等。ODCC圍繞RDMA Switch理念,近年來開展了多種研究,數(shù)據(jù)中心三網(wǎng)合一項目就是基于此產(chǎn)生。
在以往數(shù)據(jù)中心中,不同類型的應用對數(shù)據(jù)中心網(wǎng)絡(luò)有著不同的要求。對于前端網(wǎng)絡(luò),為了跟DCN外的用戶終端對接,通常采用TCP協(xié)議。IP/以太網(wǎng)絡(luò)技術(shù)成為前端網(wǎng)絡(luò)主流技術(shù),成本低、擴展性好。
存儲網(wǎng)絡(luò)一直在追求大帶寬高吞吐以充分發(fā)揮存儲盤和CPU的效率,上世紀90年代末采用同時期比Ethernet速率更高的FC技術(shù)(Fibre Channel,光纖通道)。進入20世紀,隨著更高速率的SSD(Solid-State Drive,固態(tài)硬盤)的規(guī)模應用,特別是近來高速低時延的NVMe技術(shù)的出現(xiàn),存儲需要更高速更高效的網(wǎng)絡(luò)。RDMA技術(shù)因其更低時延更高吞吐、Ethernet技術(shù)因其遠超F(xiàn)C的更高帶寬更低成本, 這兩個因素使得RDMA和Ethernet技術(shù)的結(jié)合即RoCE成為存儲網(wǎng)絡(luò)技術(shù)的新趨勢。存儲業(yè)務系統(tǒng)的開源軟件如Ceph的廣泛應用進一步加速了這個趨勢。
計算網(wǎng)絡(luò),典型代表為HPC等高性能業(yè)務,低時延是其的極致追求,之前采用InfiniBand專網(wǎng)。但隨著RoCE技術(shù)的深入發(fā)展,Ethernet在計算網(wǎng)絡(luò)中的應用也逐漸普遍。
鑒于以太網(wǎng)是生態(tài)最完整、應用最廣泛的網(wǎng)絡(luò)技術(shù)路線,為了降低數(shù)據(jù)中心網(wǎng)絡(luò)的總擁有成本(TCO,Total Cost of Ownership),前端網(wǎng)絡(luò)、存儲網(wǎng)絡(luò)和計算網(wǎng)絡(luò)三張網(wǎng)絡(luò)的技術(shù)歸一到以太是不可避免的,這就“數(shù)據(jù)中心三網(wǎng)合一”。如圖1所示,利用三網(wǎng)合一技術(shù),可以大幅降低數(shù)據(jù)中心網(wǎng)絡(luò)的TCO,并顯著降低組網(wǎng)和運維工作的復雜性。
三網(wǎng)合一:在一張網(wǎng)絡(luò)(Eth.)中提供不同業(yè)務
在ODCC數(shù)據(jù)中心三網(wǎng)合一項目中,業(yè)界開展了廣泛而深入的討論及技術(shù)研究,識別出目前RDMA技術(shù)在以太網(wǎng)大規(guī)模應用中存在的挑戰(zhàn)與難點。其中針對大規(guī)模RDMA應用時的死鎖問題、TCP/RoCE流量混跑問題、參數(shù)自動調(diào)優(yōu)問題的研究,得到了業(yè)界廣泛的認可和共識。ODCC數(shù)據(jù)中心三網(wǎng)合一項目組共同研發(fā)的技術(shù)開展了詳盡的測試,測試結(jié)果表明,項目研究所得,能夠有效支撐三網(wǎng)合一場景下的大規(guī)模RDMA應用,性能優(yōu)異。相關(guān)研究成果,將以《三網(wǎng)合一技術(shù)與應用白皮書》與《三網(wǎng)合一測試規(guī)范》的形式在峰會上發(fā)布。
RDMA傳輸協(xié)議當前業(yè)界關(guān)注的重點,本項目還對下一代RDMA協(xié)議開展了探討。目前RDMA傳輸協(xié)議是RoCEv2,這一代RDMA傳輸協(xié)議依賴ECN、CNP等技術(shù),現(xiàn)在研究中已經(jīng)發(fā)現(xiàn)會有場景出現(xiàn)ECN失效、CNP失效等,這些問題威脅到RoCEv2的根基,下一代RDMA傳輸協(xié)議的探索被提上日程。ODCC基于三網(wǎng)合一項目,在業(yè)界率先開展了下一代RDMA協(xié)議的討論,相關(guān)思考也將在白皮書中向業(yè)界發(fā)布。
更多相關(guān)信息披露,詳見2019年ODCC峰會,歡迎各位蒞臨。
項目經(jīng)理:孫黎陽
華為技術(shù)有限公司
中央研究院數(shù)據(jù)中心 標準產(chǎn)業(yè)總監(jiān)
2019ODCC開放數(shù)據(jù)中心峰會: