為什麼NVMe/TCP是數據中心的更優選擇
發布時間:2021-07-06 來源:Lightbits Labs 責任編輯:wenwei
【導讀】自從NVMe作為高性能固態硬盤(SSD)的最新協議出現以來,已經改變了存儲行業。NVMe最初是為高性能直連式PCIe SSD設計的,後來以NVMe over Fabrics(NVMe-oF)的形式進行了擴展,以支持機架級(rack-scale)的遠程SSD池。
業界普遍認為,這種新的NVMe-oF模式將取代iSCSI協議,作為計算服務器和存儲服務器之間的通信標準,並成為解耦合存儲(disaggregated storage)方案的默認協議。
然而,NVMe-oF最初的部署選項僅限於光纖通道(Fibre Channel)和遠程直接內存訪問(Remote Direct Memory Access,RDMA)結構。
如果我們能夠提供一種新的、更強大的技術,既能提供NVMe的速度和性能,又不需要高昂的部署成本和複雜性,將會如何?
NVMe over TCP(NVMe/TCP)就可以使用簡單高效的TCP/IP結構將NVMe擴展到整個數據中心。
本文將描述NVMe/TCP如何成為麵向現有數據中心的一種更優技術及其可提供的優勢。這些優勢包括:
● 支持跨數據中心可用區域的解耦合
● 利用無處不在的TCP傳輸和低延遲、高並行的NVMe協議棧
● 無需在應用服務器端進行更改
● 可提供類似直連式SSD(DAS)性能和延遲的高性能NVMe-oF解決方案
● 針對NVMe優化的高效、精簡的塊存儲網絡軟件棧
● 可並行訪問針對當今多核應用/客戶服務器優化的存儲
● 標準的NVMe-oF控製路徑操作
1. NVMe/TCP 概述
NVMe規範已經成為高性能SSD的最新協議。
與SCSI、ISCSI、SAS或SATA 接口不同,NVMe實現了針對多核服務器 CPU 優化的簡化命令模式和多隊列體係結構。NVMe-oF規範擴展了NVMe,實現了通過網絡共享PCIe SSD,其最初是使用RDMA結構來實現的。如今,Lightbits Labs與Facebook、英特爾和其他行業領先企業合作來擴展NVMe-oF標準,以支持與RDMA結構互補的TCP/IP傳輸。
基於NVMe/TCP的解耦合存儲方案具有簡單、高效等明顯優勢。TCP具有普及性、可擴展性和可靠性,對於短暫連接和基於容器的應用而言是一種理想的選擇。
此外,通過NVMe/TCP遷移到共享閃存(Flash)也ye不bu需xu要yao更geng改gai數shu據ju中zhong心xin的de網wang絡luo基ji礎chu設she施shi。無wu需xu更geng改gai基ji礎chu設she施shi意yi味wei著zhe可ke以yi輕qing鬆song地di跨kua數shu據ju中zhong心xin進jin行xing部bu署shu,因yin為wei幾ji乎hu所suo有you數shu據ju中zhong心xin網wang絡luo都dou被bei設she計ji為wei可ke支zhi持chiTCP/IP。
基於NVMe/TCP協議的廣泛行業合作意味著該協議從設計之初就具有廣闊的生態係統,並且支持任何操作係統和網絡接口卡(NIC)。NVMe/TCP Linux驅動程序原生匹配Linux內核,可以使用標準的Linux網絡協議棧和NIC,無需任何修改。
這種很有前景的新協議為超大規模數據中心量身定製,可以在不改變底層網絡基礎設施的情況下輕鬆實現部署。

圖1 NVMe/TCP可與Linux內核中的現有NVMe協議無縫集成
2. 現在的數據中心如何處理存儲
2.1 直連式存儲架構與NVMe
NVMe存儲協議旨在從固態驅動器(SSD)中提取全部性能。
NVMe協議中所設計的並行能力有助於實現這種性能。NVMe並未使用單一隊列的iSCSI模式。取而代之的是,NVMe在CPU子係統和存儲之間可支持多達64000個隊列。
SSD是使用多個並行通信信道與多個SSD存儲位置相連接的並行設備,這意味著SSD可以在大規模的並行流中高效地接收數據。在NVMe/TCP協議出現之前,利用這種並行模式的最簡單方法就是將NVMe SSD直接安裝到應用服務器上。換句話說,你必須使用DAS模式來構建自己的存儲基礎設施。
使用DAS方法,應用可以受益於以下方麵:
● 多個CPU
● 多個NVMe I/O隊列
● 並行SSD架構
對業界而言,挑戰在於將SSD從可能具有多餘容量的獨立服務器轉移到具有更高基礎設施利用率且不會損失DAS性能收益的共享存儲解決方案。因此,所有NVMe解耦合技術的目標都是在共享NVMe解決方案中實現DAS性能。
2.2 前一代基於 IP 的存儲架構
以前,iSCSI標準是通過TCP/IP網絡連接至塊存儲的唯一選擇。它是在世紀之交開發的,當時大多數處理器都是單核器件。
在SCSI中,應用(Initiator)和存儲(Target)之間隻有一個連接。對於iSCSI,也是隻有一個TCP套接字(socket)將客戶端連接至塊存儲服務器。
現在,數據中心的處理器都是大規模並行多線程器件。當今處理器的這種複雜性要求對可用的存儲協議進行徹底改革。其結果就是NVMe作為SATA和SAS(串行連接 SCSI)的替代者出現了。
所有那些早期協議的開發都是基於一個串行的旋轉型磁盤驅動器。
非易失性存儲器(NVM)是一種並行存儲技術,它不需要一個或多個盤片在一個或一組磁頭下麵旋轉。使用 NVM存儲設備,可以並行訪問許多存儲單元,且具有較低的延遲。
毫無疑問,iSCSI仍然適用於具有低到中等存儲性能要求的應用場景。然而,iSCSI卻不能滿足I/O密集型應用的要求,這類應用需要在大規模下實現低延遲。
2.3 其他替代方案和NVMe/TCP解耦合方案
RDMA、基於聚合以太網的RDMA(RoCE),以及基於光纖信道的NVMe(NVMe over FC),也是試圖解決解耦合問題的其他網絡存儲協議。然而,這些替代方案要求在兩端(應用服務器和存儲服務器)都安裝昂貴的特殊硬件,例如具備RDMA功能的NIC。此外,安裝了RDMA硬件之後,在你具備RDMA功能的交換結構中配置和管理流控製也是很複雜的。
RDMA確實提供了適用於某些高性能計算環境的性能,但它要求更高的成本,並且需要進行非常複雜的部署。
TCP/IP已被證明可以在超大規模環境中可靠、高效地工作。NVMe/TCP繼承了這種可靠性和效率,它可以作為RDMA的互補解決方案與之共存,也可以完全取代RDMA。
3. 數據中心中的閃存解耦合和 NVMe/TCP解決方案
在DAShuanjingzhong,qudongqishizaibushudaofuwuqizhongzhiqiangoumaidehuoyufuwuqiyiqigoumaide,suizheshijiandetuiyi,tamenderongliangliyonglvzengchangdehenhuanman。lingwai,weilebimiancunchuyongjinzhezhonggangadejumianchuxian,DAS常常會有意將容量配置為過剩的狀態。
相(xiang)比(bi)之(zhi)下(xia),將(jiang)存(cun)儲(chu)從(cong)計(ji)算(suan)服(fu)務(wu)器(qi)中(zhong)分(fen)離(li)出(chu)來(lai)的(de)數(shu)據(ju)中(zhong)心(xin)會(hui)更(geng)加(jia)高(gao)效(xiao)。這(zhe)樣(yang),存(cun)儲(chu)容(rong)量(liang)就(jiu)可(ke)以(yi)獨(du)立(li)地(di)進(jin)行(xing)擴(kuo)展(zhan),並(bing)且(qie)可(ke)以(yi)根(gen)據(ju)需(xu)要(yao)分(fen)配(pei)給(gei)計(ji)算(suan)服(fu)務(wu)器(qi)。
隨著每GB閃(shan)存(cun)成(cheng)本(ben)的(de)降(jiang)低(di),解(jie)耦(ou)合(he)存(cun)儲(chu)方(fang)法(fa)更(geng)加(jia)經(jing)濟(ji)高(gao)效(xiao),而(er)且(qie)數(shu)據(ju)中(zhong)心(xin)部(bu)署(shu)的(de)前(qian)期(qi)成(cheng)本(ben)也(ye)要(yao)低(di)得(de)多(duo)。通(tong)過(guo)動(dong)態(tai)分(fen)配(pei)存(cun)儲(chu)資(zi)源(yuan),可(ke)以(yi)避(bi)免(mian)過(guo)度(du)配(pei)置(zhi)(over-provisioning)開銷,從而大大降低總體成本。
NVMe/TCP解決方案釋放了基於解耦合高性能固態硬盤(SSD)的雲基礎設施的潛力。它使數據中心能夠從低效的直連式SSD模式轉為一種共享模式,在該模式中,計算和存儲可以獨立擴展,以最大限度地提高資源利用率和運行靈活性。
這種新的共享模式采用了創新的 NVMe/TCP標準。Lightbits Labs發明了這一概念,並且正在引領這一新標準的發展。
NVMe/TCP不bu會hui影ying響xiang應ying用yong的de性xing能neng。實shi際ji上shang,它ta通tong常chang會hui改gai善shan應ying用yong的de尾wei部bu延yan遲chi,從cong而er提ti升sheng用yong戶hu體ti驗yan,並bing使shi雲yun服fu務wu提ti供gong商shang能neng夠gou在zai相xiang同tong的de基ji礎chu設she施shi上shang支zhi持chi更geng多duo用yong戶hu。它ta也ye不bu需xu要yao對dui數shu據ju中zhong心xin網wang絡luo基ji礎chu設she施shi或huo應ying用yong軟ruan件jian進jin行xing任ren何he更geng改gai。它ta還hai可ke以yi降jiang低di數shu據ju中zhong心xin的de總zong體ti擁yong有you成cheng本ben(TCO),並使維護和擴展超大規模數據中心變得更容易。Lightbits Labs正與其他市場領導者合作,以實現該標準在行業中的廣泛采用。
NVMe/TCP利用標準的以太網網絡拓撲,獨立地擴展計算和存儲,以實現最高的資源利用率,並降低TCO。

圖2 從直連式存儲(DAS)轉為解耦合存儲和計算
4. Lightbits Labs:在數據中心部署NVMe/TCP
Lightbits Labs的解決方案提供了如下性能優勢:
● 與直連式存儲(DAS)相比,尾部延遲減少多達50%
● SSD容量利用率翻倍
● 數據服務的性能提升2-4 倍
● 可擴展至數萬個節點
● 可支持實現數百萬IOPS的性能,平均延遲低於200 μs
Lightbits解決方案在不影響係統穩定性或安全性的情況下可實現如下改進:
● 應用服務器及其存儲的物理分離
○ 支持獨立部署、擴展和升級
○ 支持存儲基礎設施比計算基礎設施更快地擴展
○ 提高應用服務器和存儲的效率
○ 通過對應用服務器和存儲硬件進行獨立的生命周期管理,可簡化管理並降低TCO
● 提供與內部NVMe SSD相當的高性能和低延遲
● 可利用現有的網絡基礎設施,無需進行更改
● 可在多跳(multi-hop)數據中心網絡架構中實現解耦合

圖3 NVMe/TCP可以跨數據中心將存儲節點連接至應用服務器
5. Lightbits存儲解決方案的工作原理
Lightbits Labs為雲和數據中心基礎設施提供了解耦合閃存平台。
當數萬或數十萬計算節點將直連式存儲的多個孤島鎖定在每個物理節點中時,雲級網絡就會暴露出其所存在的極端複雜性。
Lightbits的解決方案釋放了解耦合高性能 SSD解決方案的潛力。它使數據中心能夠從低效的直連式SSD模式轉為一種共享模式,在該模式中,計算和存儲可以獨立擴展,以最大限度地提高資源利用率和靈活性。
在 Lightbits Labs發明NVMe/TCP時,我們繼續使用DAS設備所用的 NVMe模式,然後將其映射到行業標準的TCP/IP協議組中。NVMe/TCP是將多個並行的NVMe I/O隊列映射到多個並行的TCP/IP連接上。這種NVMe和TCP之間的配對可以實現一種簡單的、基於標準的、端到端的並行架構。

圖4 針對並行雲架構打造的NVMe/TCP
這種新的共享模式使用了創新的NVMe/TCP標準,該標準不會影響延遲,也不需要更改網絡基礎設施或應用服務器軟件。Lightbits Labs正在與其他市場領導者合作,以推動這一新的 NVMe/TCP 標準的采用。
利用Lightbits Labsdejieouhecunchujiejuefangan,cunchukeyijingjiandefangshipeizhigeiyingyongfuwuqi。jingjianpeizhiyiweizheguanliyuankeyijiangrenyidaxiaodejuanfenpeigeikehuduan。erqie,zhiyoudangyingyongfuwuqixieshujushi,caihuixiaohaodicengcunchurongliang。yinci,cunchuzaizuihouyike(即需要它的時候)才會被使用。這將延遲對更多存儲資源的購買,從而進一步降低成本。Lightbits還為以線速運行的數據服務提供了一種硬件加速解決方案。
因此,當使用 Lightbits精簡配置技術和麵向數據服務的硬件加速方案時,存儲成本可以降低到隻有性能相當的DAS解決方案成本的一小部分。
5.1 適合閃存的寫算法
對於讀和寫操作而言,閃存介質的延遲都很低。但是,SSD上的閃存控製器必須持續執行“垃圾收集”caozuo,yibianweijijiangdaolaidexiecaozuotigongkeyongkongjian。yuyingpanqudongqidexiecaozuokeyifugaixianyoushujubutong,shancunqudongqizhiyunxujiangshujuxieruyiqianweixieruhuoyicachudeshancunkuaizhong。
垃圾收集操作會導致“寫入放大”。顧名思義,SSD控製器執行垃圾收集時,應用服務器發出的單個寫操作會被進行垃圾收集的SSD控製器在實際的閃存介質上放大為更多的寫操作。寫入放大會增加閃存驅動器的耗損,這將影響它的長期使用。
此外,後台的垃圾收集會導致即將到來的I/O的延遲增加,並且隨著更多隨機寫操作被寫入閃存驅動器,垃圾收集會顯著增加。不幸的是,很大比例的I/O都是隨機的。總的來說,這意味著用戶無法獲得最好的性能或閃存耐久性。
Lightbits Labs的解決方案通過一個智能的管理層來解決這一問題,該層以不同的服務質量(QoS)等級來管理SSD池。這種解決方案減少了SSD後台操作,並使I/O更快速、更高效。
LightOS架(jia)構(gou)將(jiang)多(duo)種(zhong)算(suan)法(fa)緊(jin)密(mi)結(jie)合(he)在(zai)一(yi)起(qi),以(yi)便(bian)優(you)化(hua)性(xing)能(neng)和(he)閃(shan)存(cun)利(li)用(yong)率(lv)。這(zhe)包(bao)括(kuo)將(jiang)數(shu)據(ju)保(bao)護(hu)算(suan)法(fa)與(yu)用(yong)於(yu)數(shu)據(ju)服(fu)務(wu)的(de)硬(ying)件(jian)加(jia)速(su)解(jie)決(jue)方(fang)案(an)以(yi)及(ji)我(wo)們(men)的(de)高(gao)性(xing)能(neng)讀(du)寫(xie)算(suan)法(fa)緊(jin)密(mi)結(jie)合(he)在(zai)一(yi)起(qi)。最(zui)終(zhong),跨(kua)SSD池管理和平衡所有I/O,從而極大地提高閃存利用率。
這種設計提高了總體性能,減少了尾部延遲、寫入放大和SSD上的耗損。這意味著LightOS可以為你的閃存存儲提供最高的投資回報率(ROI)。
5.2 高性能數據保護方案
要想實現存儲與應用服務器的分離,還需要智能、高效且不影響性能的數據保護功能。
Lightbits結合了高性能數據保護方案,其可與用於數據服務的硬件加速解決方案和讀寫算法一起工作。
就如何將數據寫入SSD池而言,相比傳統的RAID 算法,Lightbits的數據保護方法可以防止過多的寫入, 以避免SSD遭受更多耗損。
6. 總結
Lightbits Labs實現了高效的閃存解耦合方案,在實施和運行方麵具有以下優點:
● 不需要任何昂貴的專用網絡硬件,Lightbits解決方案運行在標準的TCP/IP 網絡上。
● 使用TCP/IP以機架規模在一個或多個局域網上運行,沒有協議方麵的限製。
● 提供與DAS相當的性能和延遲,包括尾部延遲比DAS尾部延遲低50%。
● 將高性能數據保護方案與其用於數據服務的硬件加速解決方案,以及可確保性能不受影響的讀寫算法結合在一起。
● 通過用於數據服務的硬件加速解決方案最大限度地提高閃存效率,該解決方案以全線速運行,且不影響性能。
● 實現了精簡配置的存儲卷,支持“按需付費”的消費模式。
Lightbits是NVMe/TCP的發明者,也是其廣泛采用的推動者。
作為一種新理念的應用,Lightbits的NVMe/TCP解決方案可以實現高效的閃存解耦合,從而獲得與 DAS相當甚至更好的性能。Lightbits創造了一種現代的IP存儲架構實現方式,可以最大限度地發揮應用服務器、NVMe、TCP和SSD並行架構的潛力。
通過Lightbits Labs的解決方案,雲原生應用可以實現雲級性能,雲數據中心可以降低其雲級TCO。
免責聲明:本文為轉載文章,轉載此文目的在於傳遞更多信息,版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權問題,請聯係小編進行處理。
推薦閱讀:
特別推薦
- 噪聲中提取真值!瑞盟科技推出MSA2240電流檢測芯片賦能多元高端測量場景
- 10MHz高頻運行!氮矽科技發布集成驅動GaN芯片,助力電源能效再攀新高
- 失真度僅0.002%!力芯微推出超低內阻、超低失真4PST模擬開關
- 一“芯”雙電!聖邦微電子發布雙輸出電源芯片,簡化AFE與音頻設計
- 一機適配萬端:金升陽推出1200W可編程電源,賦能高端裝備製造
技術文章更多>>
- 一秒檢測,成本降至萬分之一,光引科技把幾十萬的台式光譜儀“搬”到了手腕上
- AI服務器電源機櫃Power Rack HVDC MW級測試方案
- 突破工藝邊界,奎芯科技LPDDR5X IP矽驗證通過,速率達9600Mbps
- 通過直接、準確、自動測量超低範圍的氯殘留來推動反滲透膜保護
- 從技術研發到規模量產:恩智浦第三代成像雷達平台,賦能下一代自動駕駛!
技術白皮書下載更多>>
- 車規與基於V2X的車輛協同主動避撞技術展望
- 數字隔離助力新能源汽車安全隔離的新挑戰
- 汽車模塊拋負載的解決方案
- 車用連接器的安全創新應用
- Melexis Actuators Business Unit
- Position / Current Sensors - Triaxis Hall
熱門搜索
按鈕開關
白色家電
保護器件
保險絲管
北鬥定位
北高智
貝能科技
背板連接器
背光器件
編碼器型號
便攜產品
便攜醫療
變容二極管
變壓器
檳城電子
並網
撥動開關
玻璃釉電容
剝線機
薄膜電容
薄膜電阻
薄膜開關
捕魚器
步進電機
測力傳感器
測試測量
測試設備
拆解
場效應管
超霸科技



