国产精品日本亚洲77,久久久久亚洲精品成人网,亚洲精品无码中文久久字幕 ,日本高清色本在线www

 
芯企典
NEWS/
  • Backblaze 發(fā)布第一季度硬盤情況報告:SSD 固態(tài)硬盤故障率低于 HDD
  • ARM 服務(wù)器走進(jìn)中國移動大網(wǎng)
  • XX科技現(xiàn)XX神器652!將推RXXXX Pro平板
  • 離開XX的懷抱依舊強(qiáng)!VXXX筆記本賺錢了
  • Android用戶不要再慫:**變磚功能即將到來
  • XXX收購WithXXXX后,推出可監(jiān)測心血管的智能秤
  • 實探:谷歌AXXXXGo背后團(tuán)隊是什么樣的?
  • X龍652/820加持X2/Max2登陸印度市場
  • XXXRX480跑分首爆:只可惜完勝的是970
  • XX也有WWDC 2016:到會還送這些“壕”福利!
芯企典SeerFabric智能無損數(shù)據(jù)中心解決方案
來源: | 作者:computers-1027459 | 發(fā)布時間: 628天前 | 2546 次瀏覽 | ?? 點擊朗讀正文 ?? ? | 分享到:

1. 背景與挑戰(zhàn)

隨著云計算、大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)以及5G網(wǎng)絡(luò)的興起,數(shù)據(jù)呈現(xiàn)爆炸式增長,同時也對數(shù)據(jù)中心建設(shè)提出了更苛刻的要求,而如何建設(shè)滿足未來3至5年業(yè)務(wù)發(fā)展的需要,則是每位數(shù)據(jù)中心從業(yè)者都需要思考的命題。

建設(shè)高性能數(shù)據(jù)中心傳統(tǒng)思路主要是一方面推動數(shù)據(jù)中心網(wǎng)絡(luò)帶寬升級進(jìn)而帶動組網(wǎng)架構(gòu)升級(即10G/40G模型向25G/100G組網(wǎng)模型演進(jìn),進(jìn)而向100G/400G模型演化);另外一方面則是引入基于SDN Telemetry等智能管理技術(shù)使數(shù)據(jù)中心網(wǎng)絡(luò)實現(xiàn)自動化、智能化運維管理,最終實現(xiàn)數(shù)據(jù)中心網(wǎng)絡(luò)“管控析”融合升級。

(圖1:傳統(tǒng)數(shù)據(jù)中心方案升級之路)


但數(shù)據(jù)中心基礎(chǔ)設(shè)施三大件:計算、存儲近些年都有長足的進(jìn)步,其中,計算,在CPU基礎(chǔ)上,出現(xiàn)了像GPU、TPU等為特定場景、特定業(yè)務(wù)而生的處理器芯片,計算效率成百上千的提升;存儲,在HDD機(jī)械硬盤的基礎(chǔ)上出現(xiàn)了SSD全閃存產(chǎn)品,存取效率也得到質(zhì)飛躍。網(wǎng)絡(luò)雖然出現(xiàn)了SDN技術(shù),但其內(nèi)核本質(zhì)還是TCP/IP技術(shù),而TCP/IP處理機(jī)制是“盡力而為”,涉及“TCP/IP協(xié)議棧處理時延大”和“因協(xié)議棧處理機(jī)制帶來的CPU負(fù)載居高不下的問題”,并沒有太大的改進(jìn):

TCP/IP協(xié)議棧處理時延大:

1. TCP協(xié)議棧在收/發(fā)報文時,需要做多次上下文切換,每次切換需耗費5us~10us左右時延;

2. 以及至少三次的數(shù)據(jù)拷貝,嚴(yán)重依賴CPU進(jìn)行協(xié)議封裝,協(xié)議棧就本身就有數(shù)十微秒的固定時延,使得在AI人工智能和SSD分布式存儲-微秒級系統(tǒng)中,協(xié)議棧時延成為最明顯的瓶頸;

服務(wù)器CPU負(fù)載居高不下:

1. 除固定時延問題,TCP/IP還需主機(jī)CPU多次參與協(xié)議棧內(nèi)存拷貝。網(wǎng)絡(luò)規(guī)模越大,網(wǎng)絡(luò)帶寬越高, CPU在收發(fā)數(shù)據(jù)時的調(diào)度負(fù)擔(dān)越大,導(dǎo)致CPU持續(xù)高負(fù)載。

2. 按照業(yè)界測算數(shù)據(jù):每傳輸1bit數(shù)據(jù)需要耗費1Hz的CPU資源;當(dāng)網(wǎng)絡(luò)帶寬達(dá)到25G以上(滿載),絕大多數(shù)服務(wù)器,至少50% CPU資源將不得不用來傳輸數(shù)據(jù)。

(圖2:難道TCP/IP是木桶最短的那塊板?)


基于此,TCP/IP的下一跳,到底在哪里?


2. 鑫啟典SeerFabric智能無損數(shù)據(jù)中心解決方案

2.1 技術(shù)發(fā)展趨勢1:RDMA適時而生

傳統(tǒng)TCP/IP技術(shù)在數(shù)據(jù)包處理過程中,需要首先經(jīng)過軟件應(yīng)用和操作系統(tǒng)的處理,需要占用大量的服務(wù)器資源和內(nèi)存總線帶寬資源,這一過程中存在多次數(shù)據(jù)拷貝、中斷處理以及處理復(fù)雜的TCP/IP協(xié)議處理等問題,從而無可避免的就會帶來網(wǎng)絡(luò)時延過大的結(jié)果。

RDMA(Remote Direct Memory Access)技術(shù)全稱“遠(yuǎn)程直接內(nèi)存訪問”,是為了解決網(wǎng)絡(luò)傳輸中服務(wù)器端數(shù)據(jù)處理的延遲而產(chǎn)生的技術(shù)。支持將用戶應(yīng)用中的數(shù)據(jù)直接傳入服務(wù)器存儲區(qū),通過網(wǎng)絡(luò)將數(shù)據(jù)從一個系統(tǒng)快速傳輸至遠(yuǎn)程系統(tǒng)的存儲中。

(圖3:TCP/IP和RDMA協(xié)議棧處理流程對比)


RDMA技術(shù)實現(xiàn)了在網(wǎng)絡(luò)傳輸過程中兩個節(jié)點之間數(shù)據(jù)緩沖區(qū)數(shù)據(jù)的直接傳遞,在本節(jié)點可以直接將數(shù)據(jù)通過網(wǎng)絡(luò)傳送到遠(yuǎn)程節(jié)點的內(nèi)存中,繞過操作系統(tǒng)內(nèi)的多次內(nèi)存拷貝,相比于傳統(tǒng)的網(wǎng)絡(luò)傳輸,RDMA無需操作系統(tǒng)和TCP/IP協(xié)議棧的介入,可以輕易的實現(xiàn)超低延時的數(shù)據(jù)處理、超高I/O吞吐量的傳輸,基本不需要遠(yuǎn)程節(jié)點CPU等資源的介入,不必因為數(shù)據(jù)的處理和遷移耗費過多的資源。

RDMA技術(shù)最早出現(xiàn)在Infiniband網(wǎng)絡(luò),用于HPC高性能計算集群的互聯(lián)。傳統(tǒng)的基于Socket套接字(TCP/IP協(xié)議棧)的網(wǎng)絡(luò)通信,需要經(jīng)過操作系統(tǒng)軟件協(xié)議棧,數(shù)據(jù)在系統(tǒng)DRAM、處理器Cache和網(wǎng)卡Buffer之間來回拷貝搬移,因此占用了大量的CPU計算資源和內(nèi)存總線帶寬,也加大了網(wǎng)絡(luò)延時。

(圖4:RDMA協(xié)議的技術(shù)優(yōu)勢?)


舉例來說,40Gbps的TCP/IP流能耗盡主流服務(wù)器的所有CPU資源,RDMA技術(shù)則很好的解決了傳統(tǒng)TCP/IP通信的技術(shù)痛點。例如,在40Gbps場景下,采用RDMA技術(shù)的服務(wù)器,CPU占用率會從100%下降到5%,網(wǎng)絡(luò)延時從ms級降低到10us以下,極端場景下甚至?xí)啵訰DMA技術(shù)帶來的優(yōu)勢是顯而易見的,同時RDMA技術(shù)又可以在數(shù)據(jù)中心幾乎所有業(yè)務(wù)流量場景都可以采用,比如應(yīng)用到應(yīng)用、計算到計算、計算到存儲和存儲到存儲四類場景,并且對于數(shù)據(jù)中心數(shù)據(jù)讀取效率的提升又顯而易見。

(圖5:RDMA技術(shù)在四類場景流量模擬)


2.2 技術(shù)發(fā)展趨勢2:RDMA技術(shù)介紹

現(xiàn)階段,RDMA網(wǎng)絡(luò)技術(shù)主要為Infiniband、RoCE和iWARP,Infiniband網(wǎng)絡(luò)主要出現(xiàn)在HPC高性能計算場景,因為其自身技術(shù)特點的因素,該技術(shù)采用的一切都是專用的,包括應(yīng)用程序、編程接口、網(wǎng)絡(luò)協(xié)議、網(wǎng)卡、網(wǎng)絡(luò)設(shè)備和硬件接口形式乃至管理軟件都是專用的。iWARP基于TCP/IP協(xié)議的RDMA技術(shù),由IETF標(biāo)準(zhǔn)定義發(fā)布,本文受制于篇幅所限,重點介紹RoCE技術(shù)。

RoCE技術(shù)基于以太網(wǎng)的RDMA技術(shù),Emulex聯(lián)合IBTA(InfiniBand Trade Association, InfiniBand行業(yè)協(xié)會)共同宣布推出,發(fā)展至今已經(jīng)發(fā)布兩個版本,最新RoCEv2版本,將IB的GRH(Global Routing Header)換成UDP Header + IP Header。 RoCE v2工作在UDP之上,采用UDP 4791端口進(jìn)行傳輸,支持路由,所以有時又會稱為可路由的RoCE,簡稱RRoCE。

(圖6:主流RDMA技術(shù)演化與對比)


2.3 技術(shù)發(fā)展趨勢2:RDMA無損網(wǎng)絡(luò)技術(shù)

RDMA的提出之初承載在無損的InfiniBand網(wǎng)絡(luò)中,Infiniband網(wǎng)絡(luò)提供完善的丟包重傳機(jī)制,對于InfiniBand架構(gòu),接收端僅可接收有序報文,如果有丟包發(fā)生,會引起流中斷;當(dāng)有丟包發(fā)生時,接收端會發(fā)送帶有PSN (packet sequence number報文序列號) 的NACK (not ACK否認(rèn)字符) 控制報文到發(fā)送端,來重傳丟失報文及后續(xù)報文。

(圖7:基于InfiniBand的重傳機(jī)制)


但是當(dāng)RDMA技術(shù)應(yīng)用在以太網(wǎng)中時候,以太網(wǎng)本質(zhì)是“盡力而為”的網(wǎng)絡(luò),因為以太網(wǎng)缺乏完善的丟包保護(hù)機(jī)制,對于丟包異常敏感,超過0.1%(千分之一)的丟包率將導(dǎo)致網(wǎng)絡(luò)有效吞吐急劇下降至75%;而1%的丟包則使得網(wǎng)絡(luò)有效吞吐率幾乎下降為0;所以要使得RDMA吞吐不受影響,丟包率最好保證在萬分之一(0.1‰)甚至是十萬分之一(0.01‰)以下,即最好無丟包。

(圖8:傳統(tǒng)以太網(wǎng)缺少完善的丟包保護(hù)機(jī)制)


而原生以太網(wǎng)的設(shè)計理念是“盡力而為”的網(wǎng)絡(luò),并不是無損網(wǎng)絡(luò),因此無損以太網(wǎng)絡(luò)則需要PFC基于優(yōu)先級的流量控制(Priority-based Flow Control,IEEE802.1Qbb)、ECN顯示擁塞通知(Ethernet Congestion Notification,IEEE802.1Qau)、DCBX數(shù)據(jù)中心橋能力交換協(xié)議(Data Center Bridging Exchange Protocol,IEEE802.1Qaz)和ETS增強(qiáng)傳輸選擇(Enhanced Transmission Selection,IEEE802.1Qaz)四個技術(shù)配合完成,其中以太網(wǎng)層主要是PFC、ETS、DCBX;IP層主要是ECN;IB傳輸層主要是ECN,業(yè)務(wù)處理流程大致如下:

(圖9:RDMA無損以太網(wǎng)計算場景技術(shù)全景)


其中PFC和ECN是其中兩個必選技術(shù),一般情況推薦,雖然PFC是二層技術(shù),ECN是網(wǎng)絡(luò)層和傳輸層技術(shù),但是PFC與ECN能夠同時使能,并且推薦在RoCE環(huán)境中同時使能,以保證RoCE報文無丟包并且網(wǎng)絡(luò)帶寬得到保證。從充分發(fā)揮網(wǎng)絡(luò)高性能轉(zhuǎn)發(fā)角度,一般建議通過調(diào)整ECN和PFC的buffer水線,讓ECN快于PFC觸發(fā),即網(wǎng)絡(luò)還是持續(xù)全速進(jìn)行數(shù)據(jù)轉(zhuǎn)發(fā),讓服務(wù)器主動降低發(fā)包速率。若還不能解決問題,再通過PFC讓上游交換機(jī)暫停報文發(fā)送,雖然整網(wǎng)吞吐性能降低,但是不會產(chǎn)生丟包,兩大技術(shù)相互配合以期最終實現(xiàn)網(wǎng)絡(luò)無損。

2.4 鑫啟典SeerFabric智能無損數(shù)據(jù)中心方案全景

借助鑫啟典在網(wǎng)絡(luò)領(lǐng)域近20年的積累和行業(yè)客戶業(yè)務(wù)的理解,新華三發(fā)布SeerFabric智能無損數(shù)據(jù)中心解決方案,解決方案整體基于云邊AI協(xié)同架構(gòu),能夠借助智能學(xué)習(xí)為不同業(yè)務(wù)場景構(gòu)建智能無損控制模型,并能實現(xiàn)對業(yè)務(wù)場景的智能識別,進(jìn)而完成相應(yīng)模型參數(shù)的動態(tài)匹配,以大帶寬、低時延、零丟包的精確轉(zhuǎn)發(fā)和可確定性網(wǎng)絡(luò)體驗,廣泛服務(wù)于互聯(lián)網(wǎng)、政府、金融、生產(chǎn)娛樂、高性能計算等重要行業(yè)和領(lǐng)域的數(shù)字化轉(zhuǎn)型。

(圖10:鑫啟典SeerFabric智能無損數(shù)據(jù)中心解決方案架構(gòu))


鑫啟典SeerFabric智能無損解決方案覆蓋計算、存儲、網(wǎng)絡(luò)交換、管理控制、性能展現(xiàn)與優(yōu)化端到端的大帶寬、遞時延、零丟包的精確轉(zhuǎn)發(fā)和可確定性網(wǎng)絡(luò)體驗,從解決方案架構(gòu)上,又可劃分為管控析層和ICT基礎(chǔ)設(shè)施(網(wǎng)絡(luò)、計算、存儲)層,從應(yīng)用場景上主要分為傳統(tǒng)計算場景、存儲網(wǎng)絡(luò)場景和高性能計算三大場景,要做到三大場景統(tǒng)一融合,管控析層是最為至關(guān)重要的環(huán)節(jié),主要是智能控制引擎SeerEngine和智能分析器SeerAnalyzer來承載實現(xiàn)。SeerEngine實現(xiàn)構(gòu)建基于場景的業(yè)務(wù)流量模型和模型匹配,實現(xiàn)智能無損網(wǎng)絡(luò)的動態(tài)控制;SeerAnalyzer實現(xiàn)端到端精細(xì)化數(shù)據(jù)采集和無損性能狀態(tài)可視,并依據(jù)性能狀態(tài)數(shù)據(jù)使用AI-ECN算法完成網(wǎng)絡(luò)設(shè)備ECN水線的動態(tài)智能調(diào)優(yōu)計算。

鑫啟典 AI-ECN充分實現(xiàn)了數(shù)據(jù)、智能算法和專業(yè)知識的結(jié)合,為新華三SeerFabric智能無損解決方案智能化賦能。

端到端細(xì)粒度的性能指標(biāo)Telemetry數(shù)據(jù)采集上,充分挖掘智能網(wǎng)卡、存儲、H3C網(wǎng)絡(luò)設(shè)備精細(xì)化性能數(shù)據(jù)采集能力,使得智能算法能夠感知RoCE流量成份及大小、網(wǎng)絡(luò)設(shè)備緩存隊列的動態(tài)變化等;數(shù)據(jù)項包括接口及隊列的各種性能統(tǒng)計指標(biāo)、以及網(wǎng)絡(luò)設(shè)備偵聽的RoCE流會話統(tǒng)計等。同時,通過部署于服務(wù)器上的Agent和智能網(wǎng)卡配合,提供RoCE流量的撥測能力,在業(yè)務(wù)上線之前就可以對網(wǎng)絡(luò)進(jìn)行可視化調(diào)試調(diào)優(yōu)。支持的RoCE智能網(wǎng)卡包括Mellanox系列網(wǎng)卡、Intel E810網(wǎng)卡等。

在算法上,真實的實驗環(huán)境采集不同流量模型下的性能KPI,并通過應(yīng)用的真實體驗進(jìn)行標(biāo)注后形成訓(xùn)練數(shù)據(jù)集,結(jié)合專家知識建模并離線訓(xùn)練后,生成ECN水線動態(tài)調(diào)優(yōu)模型。新華三 AI-ECN調(diào)優(yōu)算法模型具有效率高、計算量小的特點,同時支持控制器集中式調(diào)優(yōu)和網(wǎng)絡(luò)設(shè)備分布式本地調(diào)優(yōu)兩種模式。例如,在集中式調(diào)優(yōu)模式下,不需要專用的AI芯片,使用搭載Intel XEON-SP服務(wù)器的管控析集群,就可在較大規(guī)模網(wǎng)絡(luò)管理下,開啟ECN水線調(diào)優(yōu);在本地模式下,搭載Intel XEON-D 和 ATOM的新華三網(wǎng)絡(luò)交換機(jī),僅以較小的CPU開銷就可以完成調(diào)優(yōu)。


3. SeerFabric解決方案價值與亮點


智能:基于AD-DC應(yīng)用驅(qū)動數(shù)據(jù)中心

鑫啟典SeerFabric智能無損數(shù)據(jù)中心解決方案SeerAnalyzer智能分析器支持實現(xiàn)網(wǎng)絡(luò)及聯(lián)接的存儲和計算資源,基于AI學(xué)習(xí)及專家知識,對網(wǎng)絡(luò),計算,存儲資源,構(gòu)建差異化數(shù)據(jù)中心場景的智能無損網(wǎng)絡(luò)分析模型。SeerAnalyzer智能分析器實時監(jiān)控RoCE基礎(chǔ)數(shù)據(jù),采集重點關(guān)注包括ingress/egress丟包計數(shù)/總量、ingress/egressPFC計數(shù)/總量、ingress/egress buffer使用情況、ECN、headroom buffer使用、Ingress/egress門限閾值超限次數(shù)等等信息;同時分析器還會收集RDMA實時告警上報信息,諸如ingress/egress丟包告警信息、Headroom Buffer超限丟包告警信息、egress buffer超限告警以及通過Netconf操作配置變更信息等關(guān)鍵信息,SeerAnalyzer收集上述網(wǎng)絡(luò)大數(shù)據(jù)信息,從而訓(xùn)練基于業(yè)務(wù)的網(wǎng)絡(luò)模型,洞察網(wǎng)絡(luò),并多維度實時評價、統(tǒng)計、歸納、可視化呈現(xiàn),進(jìn)一步實現(xiàn)精準(zhǔn)根因分析,并實現(xiàn)異常預(yù)測和趨勢分析,并最終通過與SeerEngine智能控制器實現(xiàn)智能聯(lián)動以及網(wǎng)絡(luò)優(yōu)化,閉環(huán)自愈網(wǎng)絡(luò),為用戶業(yè)務(wù)保障護(hù)航。

針對AI人工智能計算場景,多打一發(fā)送Burst流量時,Buffer不溢出的情況下支持的最大N值,而實現(xiàn)這一需求就需要網(wǎng)絡(luò)設(shè)備工作在“Lossless”無損模式,針對多打一即N:1 Incast模型場景,鑫啟典SeerFabric智能無損解決方案支持通過智能分析器SeerAnalyzer采集網(wǎng)絡(luò)大數(shù)據(jù)基于新華三AI算法向網(wǎng)絡(luò)基礎(chǔ)下發(fā)參數(shù)調(diào)優(yōu)。

鑫啟典SeerFabric智能無損數(shù)據(jù)中心解決方案支持基于buffer深度調(diào)優(yōu)的基礎(chǔ)上,還支持基于鏈路帶寬利用率實現(xiàn)AI ECN調(diào)優(yōu),比如當(dāng)鏈路帶寬利用率超過90%、95%以上的時候,交換機(jī)通過AI ECN功能實現(xiàn)帶寬和時延的業(yè)務(wù)平衡。


融合:以太網(wǎng)一統(tǒng)三大場景實現(xiàn)數(shù)據(jù)中心業(yè)務(wù)大融合

傳統(tǒng)存儲SAN網(wǎng)絡(luò)場景一直都是FC(Fabric Channel)光纖交換機(jī)的天下,自2017年,全球數(shù)據(jù)中心存儲市場,閃存盤(SSD, Solid-State Drive)市場份額超過機(jī)械硬盤(HDD,Hard Disk Drive)至今,已經(jīng)有行業(yè)客戶開始把企業(yè)生產(chǎn)業(yè)務(wù)運行在SSD存儲上。存儲場景NVME-of替代傳統(tǒng)FC SAN網(wǎng)絡(luò)重點需關(guān)注:服務(wù)器通過手工配置來發(fā)現(xiàn)磁盤設(shè)備,并和磁盤設(shè)備建立長連接。如服務(wù)器長時間未收到磁盤設(shè)備發(fā)送的報文,則認(rèn)為磁盤設(shè)備故障,將存儲流量切換到備用路徑。

鑫啟典SeerFabric智能無損數(shù)據(jù)中心解決方案支持智能無損存儲網(wǎng)絡(luò)技術(shù)解決方案,即iNOF(Intelligent Lossless NVMe Over Fabric,智能無損存儲網(wǎng)絡(luò)),該技術(shù)是一種以太網(wǎng)和存儲網(wǎng)絡(luò)融合的技術(shù),通過和LLDP(Link Layer Discovery Protocol,鏈路層發(fā)現(xiàn)協(xié)議)配合使得iNOF內(nèi)的所有設(shè)備可以第一時間自動感知服務(wù)器和磁盤設(shè)備的加入和離開,以便產(chǎn)品可以智能調(diào)整相關(guān)配置,最終協(xié)助實現(xiàn)存儲流量在以太網(wǎng)的無丟包、高吞吐傳輸。相對于傳統(tǒng)NVMe技術(shù),鑫啟典SeerFabric智能無損數(shù)據(jù)中心解決方案iNOF具備優(yōu)勢:

即插即用:當(dāng)主機(jī)接入iNOF網(wǎng)絡(luò)時,其它已在iNOF網(wǎng)絡(luò)的主機(jī)會迅速發(fā)現(xiàn)新加入的主機(jī),并自動發(fā)起和新主機(jī)的連接。

故障智能快速感知:當(dāng)主機(jī)接入iNOF網(wǎng)絡(luò)的某條鏈路故障時,iNOF交換機(jī)會迅速將該故障通知給iNOF網(wǎng)絡(luò)中的其它主機(jī),然后其它主機(jī)可以智能感知快速跳轉(zhuǎn)。


超寬:大帶寬支持400G組網(wǎng)演化

鑫啟典SeerFabric智能無損數(shù)據(jù)中心解決方案支持主流數(shù)據(jù)中心交換機(jī)產(chǎn)品,即框盒組網(wǎng),盒盒組網(wǎng),覆蓋10G/40G組網(wǎng)模型、25G/100G組網(wǎng)模型、100G/100G組網(wǎng)模型和100G/400G模型全覆蓋;

針對數(shù)據(jù)中心互聯(lián)DCI場景,F(xiàn)C帶寬底、成本高的劣勢,新華三SeerFabric智能無損解決方案提供基于400G超長距離無損網(wǎng)絡(luò)解決方案,是業(yè)界4倍,同時結(jié)合新華三智能控制器SeerEngine和智能分析器SeerAnalyzer可以實現(xiàn)存儲網(wǎng)絡(luò)自動化運維管理,有效降低用戶運維成本,降低用戶工作量。