北京2024年5月10日 /美通社/ -- 近日,浪潮信息發布為大模型專門優化的分布式全閃存儲AS13000G7-N系列。該系(xi)列依托浪潮信息自研分布式文件系(xi)統(tong),搭載新一代數據加速(su)引擎DataTurbo,通過盤控協同、GPU直訪存(cun)儲(chu)、全局一致性緩存(cun)等(deng)技術(shu)為(wei)AI大模型數據歸(gui)(gui)集、訓練、數據歸(gui)(gui)檔(dang)與管理等(deng)階段提(ti)供強大存(cun)儲(chu)支撐能力,助力用戶加速(su)大模型系(xi)統(tong)的創新及(ji)應用落(luo)地。
化解大模型時代的存儲挑戰 構建堅實的數據存儲底座
大模型已經成為驅動數字經濟深度創新、引領企業業務變革、加速形成新質生產力的重要動能,隨著大模型參數量和數據量的極速膨脹,多源異構數據的傳、用、管、存,正在成為制約生成式AI落地的瓶頸之一,用戶(hu)亟需構建更加(jia)高(gao)效的(de)存儲(chu)底座。在(zai)數(shu)(shu)據(ju)準備階(jie)段,在(zai)規模(mo)大(da)、來源(yuan)廣泛、格式多(duo)樣(yang)的(de)原始(shi)數(shu)(shu)據(ju)中,篩(shai)選和清洗出利用于訓練(lian)的(de)高(gao)質量(liang)數(shu)(shu)據(ju)常會耗費(fei)大(da)量(liang)時(shi)間;在(zai)模(mo)型(xing)訓練(lian)階(jie)段,海量(liang)小文件數(shu)(shu)據(ju)加(jia)載、Checkpoint數(shu)(shu)據(ju)調用對(dui)IO處(chu)理效率提出嚴苛要(yao)求;模(mo)型(xing)訓練(lian)之后(hou),多(duo)個數(shu)(shu)據(ju)資源(yuan)池(chi)無法互通(tong)、海量(liang)冷(leng)數(shu)(shu)據(ju)歸檔帶(dai)來較(jiao)高(gao)的(de)數(shu)(shu)據(ju)管(guan)理復雜(za)度。
作為率先在業界提出分布式融合存儲的廠商,浪潮信息聚焦行業客戶的大模型落地需求與核心痛點,基于NVMe SSD研發出高效適配和優化的分布式全閃存儲AS13000G7-N系列。硬件方面,AS13000G7-N是一款2U24盤位的全閃存儲機型,搭載英特爾®至強®第四、第五代可擴展處理器,支持400 Gb 網卡,同時每盤位可配置15.36TB 大容量NVMe SSD。軟件方面,通(tong)(tong)過(guo)(guo)集群控制服(fu)務將(jiang)N個節點聯成一套具有高(gao)擴展(zhan)性的(de)文件系統;通(tong)(tong)過(guo)(guo)分(fen)布式(shi)元(yuan)數(shu)據服(fu)務提升(sheng)海量(liang)小(xiao)文件讀寫(xie)性能;通(tong)(tong)過(guo)(guo)數(shu)控分(fen)離架構,實現東西向網絡(luo)優化(hua),降低IO訪(fang)問時延,提升(sheng)單節點帶(dai)寬(kuan)。在軟硬件協同創(chuang)新下,AS13000G7-N充分(fen)滿足大模型應(ying)用在存儲(chu)性能和(he)存儲(chu)容量(liang)方面的(de)嚴苛需求(qiu)。
具體來說,在數據準備階段,通過多協議融合互通技術,面對多份、多種協議的數據,存儲底層僅保留一份數據,實現數據共享免搬遷;在模型訓練階段,通過大小IO智能識別和緩存預讀技術快速保存和恢復checkpoint(檢查點)文件,實現TB級訓練數據Checkpoint讀取耗時從10分鐘縮短至10秒內,大幅提升訓練過程中數據加載速度;RDMA/RoCE網絡連接技術和數控分離架構的設計,實現東西向數據免轉發,極限發揮大模型訓練中硬件網絡帶寬性能;基于盤控協同架構,網絡數據直通NVMe SSD,進一步提升單盤帶寬;在數據歸檔與管理階段,AS13000G7-N提(ti)供了(le)多元異構存(cun)儲(chu)的統一納管能力,保障數(shu)據資(zi)(zi)產高(gao)效存(cun)儲(chu)與管理,大幅提(ti)升(sheng)存(cun)儲(chu)資(zi)(zi)源的利用率且(qie)最大化數(shu)據基礎設施(shi)投資(zi)(zi)回報比。
DataTurbo數據加速引擎,全力保障大模型高效訓練
在(zai)大模(mo)型的(de)數(shu)據(ju)應用(yong)全流程中,要(yao)想使訓練(lian)效率達(da)到極致(zhi),減少不必(bi)要(yao)的(de)資源浪費,訓練(lian)階段的(de)數(shu)據(ju)讀(du)寫性(xing)(xing)能(neng)成為重中之(zhi)重。而想要(yao)提(ti)升算力利用(yong)率、降低模(mo)型訓練(lian)成本,必(bi)須要(yao)在(zai)數(shu)據(ju)存儲性(xing)(xing)能(neng)上進行創新。
AS13000G7-N系列具(ju)備強(qiang)大的(de)端(duan)(duan)到端(duan)(duan)性能優化能力(li),這也(ye)是模型訓練(lian)階段最為核心(xin)的(de)考(kao)量因素(su)。浪(lang)潮(chao)信息(xi)基于計算和(he)存(cun)儲協(xie)同(tong)的(de)理(li)念,依托自研分布(bu)式文(wen)件系統構建了(le)(le)新一代數據加速引擎DataTurbo,在緩存(cun)優化、空間(jian)均衡、縮短(duan)GPU與存(cun)儲讀(du)取路(lu)徑等方面進行了(le)(le)全面升(sheng)級。"
AS13000G7-N能(neng)夠通過(guo)對大小IO的(de)智能(neng)識(shi)別,進(jin)行分(fen)(fen)類(lei)治理,小文(wen)(wen)件(jian)采取聚(ju)合的(de)操作(zuo)(zuo),大文(wen)(wen)件(jian)采取切片的(de)操作(zuo)(zuo),所有(you)數據以大小均衡的(de)模(mo)式(shi)保(bao)存(cun)(cun)到(dao)全(quan)局緩存(cun)(cun)中,實現小文(wen)(wen)件(jian)性能(neng)提升5倍,大文(wen)(wen)件(jian)性能(neng)提升10倍。在模(mo)型訓練(lian)中斷后,從(cong)Checkpoint恢復數據過(guo)程中,AS13000G7-N通過(guo)緩存(cun)(cun)預讀技(ji)術,提前(qian)識(shi)別數據的(de)冷(leng)熱程度(du),加(jia)速了(le)重復樣本數據的(de)讀取,訓練(lian)加(jia)載(zai)速度(du)提升10倍。無論是讀操作(zuo)(zuo)還是寫操作(zuo)(zuo),AS13000G7-N采取了(le)字(zi)節級(Byte)分(fen)(fen)布(bu)式(shi)鎖機(ji)制,粒度(du)是主(zhu)流并行文(wen)(wen)件(jian)系統鎖機(ji)制粒度(du)的(de)幾十(shi)分(fen)(fen)之一(yi),確保(bao)多個(ge)節點訪問共享資源時能(neng)夠安全(quan)、有(you)序地(di)進(jin)行操作(zuo)(zuo),從(cong)而保(bao)持(chi)訓練(lian)數據的(de)強一(yi)致(zhi)性和(he)訓練(lian)質量(liang)。
AS13000G7-N搭載(zai)了(le)浪潮信息(xi)自主研(yan)發的(de)(de)(de)(de)分(fen)(fen)布式并行客戶端(duan)技術(shu),相(xiang)比通用私有客戶端(duan),卸載(zai)了(le)獨(du)立的(de)(de)(de)(de)元數(shu)(shu)據(ju),實現了(le)元數(shu)(shu)據(ju)和數(shu)(shu)據(ju)節點的(de)(de)(de)(de)高(gao)效統(tong)一部署(shu),有效提升存儲(chu)(chu)的(de)(de)(de)(de)并發能(neng)力(li),充分(fen)(fen)利用訓練節點網(wang)卡的(de)(de)(de)(de)帶寬,讓GPU算力(li)得(de)到完(wan)全(quan)釋放(fang)。同時(shi)在(zai)存儲(chu)(chu)端(duan),相(xiang)較于業界主流的(de)(de)(de)(de)文(wen)件(jian)系(xi)統(tong)需(xu)要在(zai)磁盤之上(shang)構筑一層文(wen)件(jian)協議,AS13000G7-N能(neng)夠直接對(dui)裸盤的(de)(de)(de)(de)空間(jian)進(jin)(jin)行均(jun)衡排(pai)布,并在(zai)管理層面設計了(le)智能(neng)空間(jian)預(yu)分(fen)(fen)技術(shu),能(neng)夠結合(he)(he)用戶前(qian)端(duan)算力(li)節點數(shu)(shu)量、訓練模(mo)型(xing)(xing)的(de)(de)(de)(de)數(shu)(shu)量,對(dui)存儲(chu)(chu)空間(jian)分(fen)(fen)配進(jin)(jin)一步進(jin)(jin)行智能(neng)策(ce)略(lve)預(yu)埋。這套組合(he)(he)拳(quan)能(neng)夠使AS13000G7-N在(zai)空間(jian)利用率(lv)達到95%高(gao)水位(wei)時(shi),依然可以(yi)平穩輸出強大的(de)(de)(de)(de)性能(neng)。在(zai)模(mo)型(xing)(xing)訓練的(de)(de)(de)(de)空間(jian)損耗(hao)上(shang),AS13000G7-N相(xiang)較傳統(tong)方案,將損耗(hao)率(lv)降低(di)了(le)85%左右,充分(fen)(fen)保(bao)護了(le)客戶在(zai)大模(mo)型(xing)(xing)存儲(chu)(chu)上(shang)的(de)(de)(de)(de)投資。
當大(da)(da)(da)模(mo)型(xing)參數(shu)在百億級別,GPU對存(cun)儲(chu)資源的(de)調用(yong)效率往往差(cha)別不(bu)大(da)(da)(da)。但隨著大(da)(da)(da)模(mo)型(xing)從單模(mo)態走向多模(mo)態,數(shu)據(ju)量(liang)指(zhi)數(shu)型(xing)增長,訓(xun)練(lian)效率隨之要求更高。從數(shu)據(ju)層面來(lai)(lai)看,AS13000G7-N具備和(he)GPU直(zhi)通的(de)能(neng)力(li)(li),數(shu)據(ju)流不(bu)經過客戶(hu)端緩存(cun),直(zhi)接到(dao)(dao)達存(cun)儲(chu)底層文件系統,縮短(duan)GPU與(yu)存(cun)儲(chu)的(de)讀(du)(du)取路徑,這項技術能(neng)夠使存(cun)儲(chu)讀(du)(du)寫(xie)(xie)帶寬翻倍,大(da)(da)(da)模(mo)型(xing)訓(xun)練(lian)加(jia)載(zai)時間縮短(duan)50%。隨著萬(wan)卡(ka)萬(wan)億參數(shu)模(mo)型(xing)時代(dai)的(de)到(dao)(dao)來(lai)(lai),GPU直(zhi)通存(cun)儲(chu)高效提升數(shu)據(ju)讀(du)(du)寫(xie)(xie)訪(fang)問的(de)能(neng)力(li)(li)將是大(da)(da)(da)模(mo)型(xing)訓(xun)練(lian)的(de)標配。
通過上述技(ji)術創(chuang)新(xin),分布式全閃存儲AS13000G7-N憑借領先的(de)性能(neng)和管(guan)理優勢,能(neng)夠幫助(zhu)用(yong)戶加(jia)速大模型的(de)數(shu)據歸集(ji)、提升(sheng)模型訓練效率、簡(jian)化(hua)海量(liang)異(yi)構數(shu)據的(de)管(guan)理,從而推動業(ye)務智能(neng)化(hua)變(bian)革。浪潮信息(xi)將借助(zhu)AS13000G7-N等(deng)存儲產品,與合作伙伴加(jia)快在場景化(hua)方案(an)定(ding)制(zhi)、市場拓展(zhan)等(deng)方面(mian)的(de)創(chuang)新(xin),助(zhu)力(li)用(yong)戶構筑人工智能(neng)時代最佳數(shu)據存儲底座。