北京2024年7月2日(ri) /美通社(she)/ -- AIGC作為(wei)當下最火(huo)的(de)(de)技術話(hua)題,其業(ye)務流程(cheng)涉及到數據(ju)的(de)(de)采集、處理、訓練、推理和歸檔(dang)五個階(jie)段(duan)(duan),每個階(jie)段(duan)(duan)都面臨著(zhu)(zhu)不同(tong)的(de)(de)存(cun)儲(chu)需(xu)求和挑(tiao)戰。隨著(zhu)(zhu)數據(ju)量的(de)(de)爆炸性增長(chang),特別是隨著(zhu)(zhu)多模態數據(ju)的(de)(de)快速(su)增長(chang),對存(cun)儲(chu)系統的(de)(de)擴展性和服務兼容性也提出(chu)了新的(de)(de)挑(tiao)戰。
在2024年數(shu)據基礎設施技術(shu)峰會(hui)上,浪潮信(xin)息(xi)分布(bu)式存(cun)儲產品線架構(gou)師Lance Sun博士發表了(le)(le)題(ti)目為"高(gao)效(xiao)數(shu)據編(bian)排,加速釋(shi)放數(shu)據潛(qian)能"的(de)主旨演(yan)講,詳細討(tao)論了(le)(le)高(gao)效(xiao)數(shu)據編(bian)排對于解決上述挑戰,并釋(shi)放數(shu)據潛(qian)能的(de)重要性。
AIGC帶來的存儲挑戰凸顯了數據的重要性
首先,Lance Sun博士詳細(xi)介紹了AIGC對(dui)存儲提出的(de)需(xu)求(qiu)和挑戰,讓(rang)我(wo)們對(dui)AIGC的(de)業務(wu)流(liu)程(cheng)和對(dui)數據存儲的(de)需(xu)求(qiu)有(you)了更深(shen)入的(de)認識(shi)。
第一個是巨量多(duo)模(mo)態數(shu)據(ju)的(de)(de)挑戰。很多(duo)大語言模(mo)型都采用(yong)了來自Common Crawl的(de)(de)數(shu)據(ju)集(ji),這個組織在過(guo)去17年(nian)已經采集(ji)了2500億網頁,現在還在持(chi)續收(shou)集(ji)更多(duo)。IDC預測,到2025年(nian),全球數(shu)據(ju)總量將超過(guo)175ZB,這種增(zeng)長對(dui)存儲系(xi)統(tong)的(de)(de)多(duo)樣性(xing)和(he)擴展性(xing)帶來了挑戰。
第二個(ge)挑戰是對(dui)超大(da)讀寫帶寬的需求(qiu)。在(zai)訓(xun)(xun)練階段,checkpoint的管理是關鍵,良好的存儲(chu)性能應在(zai)12分鐘內完成checkpoint的讀寫操作(zuo),確(que)保不(bu)拖慢整(zheng)個(ge)訓(xun)(xun)練過程(cheng)。同(tong)時(shi),由于GPU成本高(gao)昂,更高(gao)的存儲(chu)性能可以減少顯卡的等待時(shi)間,減少資源浪費。
第三個(ge)挑戰是對于讀寫IOPS的(de)更高需(xu)求。千億級文件的(de)快(kuai)速(su)訪問對IOPS有著極高要求,在某些采用shuffle洗(xi)牌策略(lve)的(de)訓練(lian)過(guo)程,如果IOPS性能(neng)不夠,會導致元數據服務器產生大量的(de)通信阻塞,同時會造成GPU集群等待,影響訓練(lian)效率,造成資源浪(lang)費。
第四個(ge)挑(tiao)戰在于(yu)數(shu)據(ju)全(quan)生命周期管(guan)理。在數(shu)據(ju)清(qing)洗和標(biao)注算法日(ri)益(yi)發(fa)展的今天,數(shu)據(ju)作為企業(ye)的核心(xin)資產,企業(ye)需(xu)要(yao)對數(shu)據(ju)進行長期保存。于(yu)是,如何(he)將數(shu)據(ju)以較低的成(cheng)本安(an)全(quan)存儲(chu)起(qi)來,也(ye)成(cheng)為更重(zhong)要(yao)的課題。
為了說明高(gao)質量數據(ju)(ju)的(de)(de)重要(yao)性,Lance Sun博士(shi)還提到了ImageNet數據(ju)(ju)集。作為高(gao)質量的(de)(de)數據(ju)(ju)集,它(ta)極大地(di)推動了深度學(xue)習算法(fa)的(de)(de)發展。2012年,AlexNet在ImageNet挑戰賽上取得成功,這(zhe)不僅驗(yan)證了深度學(xue)習模型處理復雜視覺(jue)任務(wu)的(de)(de)能力,也激發了后續研究和多種(zhong)新算法(fa)的(de)(de)產(chan)生。
由(you)此可見(jian),數據的(de)(de)采集(ji)和高質量的(de)(de)數據清洗(xi),對AI的(de)(de)發展至關重要(yao)的(de)(de)。過(guo)去十多年的(de)(de)時(shi)間里,語言類模型的(de)(de)數據集(ji)規(gui)模,模型參數規(gui)模,AI芯片計算(suan)能力和數據存儲需求都發生了(le)顯著變(bian)化。
AIGC在數據歸集面臨的挑戰與浪潮信息的解決之道
在數(shu)(shu)據(ju)存(cun)(cun)儲方面,隨著數(shu)(shu)據(ju)集(ji)規模(mo)(mo)和多樣(yang)性增加,越發依賴更大(da)(da)規模(mo)(mo)的存(cun)(cun)儲服務器(qi)集(ji)群(qun)。Lance Sun博士介(jie)紹稱,很多傳統行業都積累了(le)大(da)(da)量數(shu)(shu)據(ju),這些(xie)數(shu)(shu)據(ju)需要在不同的存(cun)(cun)儲系(xi)統間(jian)進行高(gao)效(xiao)的數(shu)(shu)據(ju)流轉以支持AI和大(da)(da)數(shu)(shu)據(ju)分析,這在現有(you)的存(cun)(cun)儲架構中造成了(le)數(shu)(shu)據(ju)流動的效(xiao)率問(wen)題。
事實上,多數(shu)據中心和異構存儲環境中數(shu)據遷移面臨(lin)很多挑(tiao)戰,對此,Lance Sun博士總結了三(san)點:
第(di)一(yi)點,數據(ju)訪問(wen)分(fen)散。數據(ju)遷(qian)移的過程對(dui)用戶來說是不(bu)(bu)透明的,嚴重依(yi)賴第(di)三方遷(qian)移軟件,而(er)且受(shou)網絡波動和(he)存儲性(xing)能的影響,容易(yi)導(dao)致(zhi)數據(ju)遷(qian)移時間過長,增加操作(zuo)的不(bu)(bu)確定(ding)性(xing)和(he)復雜性(xing)。
第二點,空間(jian)(jian)和(he)時間(jian)(jian)成本的浪費。遷移(yi)(yi)過(guo)程常(chang)用糾刪或副本機制(zhi)來提高可(ke)(ke)靠性,但這會導(dao)致時間(jian)(jian)和(he)空間(jian)(jian)成本大幅增加。此外,這一過(guo)程還嚴重(zhong)依賴于第三方(fang)遷移(yi)(yi)軟件的性能,不(bu)同存儲平臺的使用容(rong)量差異可(ke)(ke)能導(dao)致數據副本遷移(yi)(yi)時出現容(rong)量不(bu)均(jun)衡問題。
第三點,運維(wei)復雜性增加。由(you)于不同存(cun)儲(chu)(chu)產(chan)品的(de)特性差異,使得存(cun)儲(chu)(chu)廠商各自發展出不同的(de)運維(wei)管(guan)理系統,數(shu)據(ju)的(de)頻繁(fan)遷移或長時(shi)間遷移導(dao)致數(shu)據(ju)管(guan)理混亂,導(dao)致運維(wei)時(shi)間和成本顯著增加。
為(wei)了應對多數據(ju)中心和(he)異構(gou)存儲(chu)環境中數據(ju)管(guan)理(li)和(he)遷移挑(tiao)戰,浪潮(chao)信息存儲(chu)進行(xing)了大量(liang)工作,基于AS13000構(gou)建了一(yi)套全(quan)局數據(ju)管(guan)理(li)平臺。
在(zai)全局數(shu)據管(guan)(guan)理平臺的(de)最上層(ceng),通過(guo)一(yi)(yi)(yi)個統(tong)一(yi)(yi)(yi)的(de)全局命名空間提供用戶視角的(de)完全統(tong)一(yi)(yi)(yi),確保所有數(shu)據都可(ke)以通過(guo)一(yi)(yi)(yi)個統(tong)一(yi)(yi)(yi)的(de)入口(kou)進行訪(fang)問和管(guan)(guan)理,極大地簡化了數(shu)據操作流程。
第二(er)個層(ceng)面,系統支持多種(zhong)標準(zhun)協議(yi)接口,包(bao)括Linux的(de)(de)NFS、對(dui)象存儲的(de)(de)S3、大數據的(de)(de)HDFS、容器化的(de)(de)CSI接口以(yi)及Windows環(huan)境下的(de)(de)SMB協議(yi)。這(zhe)樣的(de)(de)設計使得平(ping)臺(tai)能(neng)夠廣(guang)泛兼容各(ge)種(zhong)應用和環(huan)境,滿(man)足不同場景的(de)(de)需求。
最后一層,AS13000引(yin)入了智(zhi)能數據編排(pai)和緩存(cun)系(xi)統。智(zhi)能數據編排(pai)引(yin)擎利用人工智(zhi)能算(suan)法自動讓數據在熱(re)、溫、冷存(cun)儲(chu)之(zhi)間的(de)(de)流(liu)轉,優(you)化數據存(cun)儲(chu)效率。而高(gao)效的(de)(de)緩存(cun)系(xi)統可以為(wei)短期(qi)內(nei)頻繁使(shi)用的(de)(de)極熱(re)數據提供快速(su)(su)訪問能力,加速(su)(su)數據的(de)(de)流(liu)轉。
最終,用戶可以基(ji)于AS13000的全局數(shu)(shu)據(ju)(ju)管(guan)理平(ping)臺實現數(shu)(shu)據(ju)(ju)在任(ren)何地點(dian),任(ren)何時間以任(ren)何類型可視(shi)可管(guan)可流動。
Lance Sun博士還指出了市場上一些(xie)方(fang)案的(de)不足。比(bi)如,一些(xie)方(fang)案在數(shu)據(ju)采集(ji)階段使(shi)用(yong)了混閃(shan)對(dui)象存(cun)儲,而(er)在訓練(lian)階段使(shi)用(yong)全(quan)閃(shan)存(cun)儲技術。然(ran)而(er),數(shu)據(ju)在兩(liang)個存(cun)儲集(ji)群(qun)的(de)流轉非常低效,數(shu)遷移過程(cheng)中,經常由于網絡波動造成(cheng)文(wen)件斷(duan)傳(chuan)。
相(xiang)比之下,AS13000由于在一套系統(tong)內(nei)引入了多協(xie)議融合互通技術,直接省去了數(shu)據(ju)遷移的過程,大大提高了訓(xun)(xun)練(lian)數(shu)據(ju)的準(zhun)備效(xiao)率,以確保(bao)數(shu)據(ju)在訓(xun)(xun)練(lian)和(he)處理階段的高效(xiao)率和(he)低延遲(chi)訪問(wen)。
AIGC存儲的技術展望
AIGC技(ji)(ji)術的(de)影響(xiang)力日益擴大,各大存儲廠商(shang)對此高(gao)度(du)重視,存儲系統的(de)創新和(he)演進均將(jiang)AIGC作為核心考(kao)量。在演講的(de)最(zui)后,Lance Sun博士詳細介(jie)紹了(le)浪潮信息存儲在AIGC領域的(de)未來發展關鍵方向和(he)技(ji)(ji)術動向,并(bing)表(biao)示浪潮存儲將(jiang)持續深度(du)融入AI生態系統。
在(zai)行業(ye)技(ji)(ji)(ji)術方(fang)面,GPU直(zhi)連(lian)存儲(chu)技(ji)(ji)(ji)術已在(zai)眾多(duo)文件(jian)系統層面廣泛應用(yong),其(qi)在(zai)大文件(jian)讀寫方(fang)面的(de)性(xing)能表現尤為出色。浪潮信息與英偉達及(ji)業(ye)界廠(chang)商緊(jin)密合作,致(zhi)力于推動完整技(ji)(ji)(ji)術體系和標(biao)準的(de)落地。
在(zai)行業基(ji)準評(ping)測方面,浪(lang)潮信息積極(ji)參與權(quan)威的AI性能測試基(ji)準—MLperf Storage評(ping)測,并在(zai)多項負載性能評(ping)測中表現優異,幫助(zhu)企業選擇最適用于AI場景的存儲(chu)系統。
存儲(chu)的(de)安(an)全問題同樣不容(rong)忽視。英偉達在(zai)2024年的(de)GTC大會上提到包括(kuo)加密計算(suan)在(zai)內的(de)多種安(an)全技術(shu),而在(zai)存儲(chu)層面,同樣需(xu)要提供(gong)強(qiang)有(you)力的(de)數據保護(hu)措施。浪潮信息存儲(chu)正在(zai)多租(zu)戶權(quan)限隔離、防勒(le)索等數據保護(hu)技術(shu)領(ling)域進(jin)行(xing)深(shen)入探索。
談到未來發(fa)展,Lance Sun博士(shi)表(biao)示,存(cun)儲性能的(de)持續優化是(shi)浪潮信(xin)息(xi)存(cun)儲的(de)核心(xin)目標(biao)。浪潮信(xin)息(xi)將繼(ji)續通過(guo)軟硬(ying)件結合的(de)持續創新,力求在智算產業(ye)和AI產業(ye)中實現快速落地,推動整(zheng)個行業(ye)的(de)進步。
2024年(nian),AIGC依然是最熱(re)技術話(hua)題,其迅(xun)猛的(de)(de)發展速度和(he)廣闊的(de)(de)應用前景吸引(yin)了眾多關注和(he)創(chuang)新力量(liang)。憑借在數據存儲領域的(de)(de)持(chi)續創(chuang)新和(he)深耕,浪潮信息(xi)正站在這(zhe)場(chang)技術革(ge)新的(de)(de)前沿。