北京2024年(nian)7月26日 /美通(tong)社/ -- 生(sheng)成式AI快速發(fa)展(zhan),AI算力作為(wei)(wei)人(ren)工智能(neng)發(fa)展(zhan)的重要支撐,正以驚人(ren)的速度滲透(tou)至每一(yi)(yi)個(ge)計算設備。一(yi)(yi)切計算皆AI,為(wei)(wei)了支撐千行百業最(zui)廣泛的場景,通(tong)用服務器也在(zai)"智變"。
不久前,浪潮信息的研發工(gong)程師基于2U4路旗艦通用(yong)(yong)服(fu)務器NF8260G7,采用(yong)(yong)領(ling)先的張(zhang)量并(bing)行、NF4模型量化(hua)等技(ji)術(shu),實現服(fu)務器僅依靠4顆CPU即可運行千億參數 "源(yuan)2.0" 大模型,成為(wei)通用(yong)(yong)AI算力的新標桿(gan)。
NF8260G7在(zai)2U空間(jian)搭載4顆(ke)32核英特(te)爾至(zhi)強(qiang)處理器(qi),主(zhu)頻2.4GHz,支(zhi)(zhi)持8個內存(cun)通道,3路UPI總線互(hu)聯,采用(yong)32根32G的(de)(de)DDR5內存(cun),內存(cun)容量(liang)(liang)1024GB,實測內存(cun)讀帶寬995GB/s,運(yun)行效(xiao)率(lv)82.94%。框架(jia)和算(suan)法方面,NF8260G7支(zhi)(zhi)持PyTorch、TensorFlow等(deng)主(zhu)流AI框架(jia)和DeepSpeed等(deng)流行開(kai)發(fa)工具,滿足(zu)用(yong)戶更成熟、易部(bu)署、更便捷(jie)的(de)(de)開(kai)放生態需求。浪潮信息算(suan)法工程(cheng)師還基(ji)于Yuan2.0千(qian)億(yi)參數大(da)模型(xing)(xing)(xing)的(de)(de)研發(fa)積累,為NF8260G7部(bu)署張量(liang)(liang)并(bing)行環境,提升4倍計算(suan)效(xiao)率(lv),并(bing)通過NF4等(deng)量(liang)(liang)化(hua)技術,將1026億(yi)參數的(de)(de)Yuan2.0大(da)模型(xing)(xing)(xing)容量(liang)(liang)縮(suo)小(xiao)至(zhi)1/4,首次(ci)實現(xian)單(dan)機通用(yong)服(fu)務(wu)器(qi),即可(ke)運(yun)行千(qian)億(yi)參數大(da)模型(xing)(xing)(xing),為千(qian)億(yi)參數AI大(da)模型(xing)(xing)(xing)在(zai)通用(yong)服(fu)務(wu)器(qi)的(de)(de)推理部(bu)署,提供(gong)了性能更強(qiang),成本更經濟(ji)的(de)(de)選擇。
【出題】
算力智變:通用服務器挑戰「千億參數」大模型
科技的進步,最終目的是"落入凡間"。AIGC正(zheng)(zheng)以超乎想象的(de)速(su)度滲透進千(qian)行(xing)百(bai)業(ye),對企業(ye)的(de)算(suan)力(li)基礎(chu)設施也提(ti)出(chu)了更高的(de)要(yao)求。為了滿足最廣泛的(de)通用(yong)(yong)業(ye)務(wu)與新興AI業(ye)務(wu)融(rong)合(he)的(de)需求,目前金融(rong)、醫(yi)療等許多行(xing)業(ye)用(yong)(yong)戶(hu)正(zheng)(zheng)在(zai)基于通用(yong)(yong)算(suan)力(li)構建(jian)AI業(ye)務(wu),實現了通用(yong)(yong)算(suan)力(li)的(de)"AI進化"。從(cong)效(xiao)果(guo)來看,目前通用(yong)(yong)服務(wu)器單機已能夠承載幾(ji)十到幾(ji)百(bai)億參數規模的(de)AI模型應用(yong)(yong)。
但算力需求仍在爆發式增長,隨著大模型技術的不斷發展,模型參數量不斷攀升,千億級參數是智能涌現的門檻,通用算力能否運行千億參數AI大模型,是衡量其能否支撐千行百業智能涌現的關鍵。
千(qian)億(yi)參數大(da)(da)模型(xing)要(yao)在(zai)單(dan)臺(tai)服務(wu)器中高(gao)效運行,對計算、內(nei)存(cun)、通信等硬件(jian)資源需求量(liang)非常(chang)大(da)(da),如果使用以(yi)GPU為(wei)主(zhu)的異構(gou)加(jia)速計算方式(shi),千(qian)億(yi)參數大(da)(da)約需要(yao)200~300GB的顯(xian)存(cun)空間(jian)才放(fang)得(de)下,這已經遠超過當(dang)前業界(jie)主(zhu)流的AI加(jia)速芯片的顯(xian)存(cun)大(da)(da)小。放(fang)得(de)下只是基(ji)礎,千(qian)億(yi)參數大(da)(da)模型(xing)在(zai)運行過程(cheng)中,對數據計算、計算單(dan)元(yuan)之(zhi)間(jian)及(ji)計算單(dan)元(yuan)與(yu)(yu)內(nei)存(cun)之(zhi)間(jian)通信的帶寬要(yao)求也非常(chang)高(gao)。千(qian)億(yi)參數大(da)(da)模型(xing)按照(zhao)BF16的精度計算,運行時(shi)延要(yao)小于100ms,內(nei)存(cun)與(yu)(yu)計算單(dan)元(yuan)之(zhi)間(jian)的通信帶寬至少要(yao)在(zai)2TB/s以(yi)上。
不同參數規模服務器硬件資源需求對比
參數規模 |
100億(yi) |
1000億 |
顯(xian)存空(kong)間 |
20~30GB |
200~300GB |
內存帶寬 (BF16精度 時延(yan)100ms) |
200~300GB/s |
2~3TB/s |
除了硬件資源的挑戰,為了讓通用服務器運行千億大模型,軟硬協同優化也是一大難題。比如AI大模型一般基于擅長大規模并行計算的AI加速卡設計,通用服務器的處理器雖然擁有高通用性和高性能的計算核心,但沒有并行工作的環境。AI大模型需要頻繁地在內存和CPU之間搬運算法權重,但通用服務器默認模型權重只能傳輸給一個CPU的內存,由該CPU串聯其他CPU進行權重數據的傳輸。這就導致CPU與內存之間的帶寬利(li)用(yong)率不高,通(tong)信開(kai)銷大(da)。
通(tong)(tong)(tong)用(yong)(yong)服務(wu)器要運(yun)行(xing)千億參(can)數大模型面臨重(zhong)重(zhong)挑戰。要填補這一空白(bai),浪潮信(xin)息研(yan)發工程師(shi)亟需提升通(tong)(tong)(tong)用(yong)(yong)服務(wu)器AI計算性能(neng),優(you)化CPU之(zhi)間、CPU與內存之(zhi)間的通(tong)(tong)(tong)信(xin)效(xiao)率,建立通(tong)(tong)(tong)用(yong)(yong)服務(wu)器的大規模并行(xing)計算的算法(fa)環境等(deng)軟(ruan)硬協同技術,系統釋放通(tong)(tong)(tong)用(yong)(yong)服務(wu)器的AI能(neng)力。
【解題】
軟硬協同創新,釋放通用服務器的智算力
首先,硬件資源方面,為支撐(cheng)大規模并行計算,浪潮信息研發工程師采用2U4路旗艦通(tong)用服(fu)務(wu)(wu)器NF8260G7,對服(fu)務(wu)(wu)器處(chu)理器、內存、互連以及框架和算法的適配性等方面進行了(le)全面優化(hua)。
本次運行千億參數(shu)大模型(xing)的(de)通用(yong)服務器NF8260G7采用(yong)如(ru)下配置(zhi):
NF8260G7在(zai)2U空間搭載4顆英(ying)特爾至強處(chu)理(li)器6448H,具(ju)有(you)AMX(高級矩陣擴展)AI加速(su)功能,核心(xin)數達到(dao)了32核心(xin),基準主(zhu)頻2.4GHz,L3 Cache 60MB,支持8個內(nei)存通道,3路UPI總線互聯(lian),功耗250W。內(nei)存方面,NF8260G7配置32根32G DDR5 4800MHZ的內(nei)存,內(nei)存帶(dai)寬(kuan)實測值分別(bie)為995GB/s(讀帶(dai)寬(kuan))、423GB/s(寫(xie)帶(dai)寬(kuan))、437GB/s(讀寫(xie)帶(dai)寬(kuan)),為滿足千億(yi)大(da)模(mo)型低延時和多處(chu)理(li)器的并發(fa)推(tui)理(li)計算(suan)打下基礎(chu)。
在高速信號互連方面,浪潮信息研發工程師優化了CPU之間,CPU和內存之間的走線路徑和阻抗連續性,依據三維仿真結果調整過孔排列方式,將信號串擾降低到-60dB以下,較上一代降低50%,通過DOE矩陣式有(you)源仿真(zhen)找到(dao)通道所有(you)corner的組合(he)最優解,充分(fen)發揮算力性能。框(kuang)架和算法(fa)方(fang)面,浪潮信息通用服務(wu)器(qi)也支持PyTorch、TensorFlow等主流AI框(kuang)架和DeepSpeed等流行開(kai)發工具,滿足用戶更成熟、易部署、更便捷的開(kai)放生態需(xu)求。
僅依靠硬件創新還遠遠不夠。算法層面,浪潮信息算法工程師基于Yuan2.0的算法研發積累,將1026億參數的Yuan2.0大模型卷積算子進行張量切分,把大模型中的注意力層和前饋層的矩陣計算的權重分別拆分到多個處理器的內存中,為通用服務器進行高效的張量并行計算提供了可能。這種權重的拆分改變了傳統CPU串聯傳輸的模式,4顆CPU可以與內存實時傳輸獲取算法權重,協同并行工作,計算效率提升4倍。
同時,千億參數大模型在張量并行計算過程中,參數權重需要200-300GB的內存空間進行存儲和計算,在100ms的時間內,完成CPU與內存數據的通信,內存帶寬需求至少在2T/s。而4路通用服務器的內存帶寬極限值為1200GB/s,還差一半左右。面對巨大的內存帶寬瓶頸,浪潮信息算法工程師需要在不影響模型精度的情況下對模型進行量化"瘦身"。浪潮信息研發工程師們嘗試了不同精度int8、int4、NF4等先進量化技術,最終選擇了更高數據精度的NF4量化方案,將模型尺寸瘦身到原來的1/4,在(zai)滿足精度需求(qiu)的條件下,大(da)幅度降低大(da)規(gui)模并(bing)行計算的訪存數(shu)據量,從而達(da)到實時推(tui)理(li)的解碼需求(qiu)。
【交卷】
填補行業空白,樹立AI算力新標桿
通過系統優化,浪潮信息NF8260G7在(zai)業(ye)(ye)界首次實(shi)現僅基(ji)于通用處理器,支持千億(yi)(yi)參(can)數(shu)(shu)大(da)(da)模(mo)(mo)型的運行,讓(rang)通用算(suan)力可支持的AI大(da)(da)模(mo)(mo)型參(can)數(shu)(shu)規模(mo)(mo)突破千億(yi)(yi),填補了行業(ye)(ye)空(kong)白,成為企業(ye)(ye)擁(yong)有(you)AI的新起點(dian)。
人(ren)工(gong)(gong)智(zhi)(zhi)能的(de)發展(zhan),是算力、算法(fa)和數據(ju)三要(yao)素系統突破的(de)結果。浪潮信息研發工(gong)(gong)程師基于(yu)通用(yong)服務器NF8260G7的(de)軟硬件協同創新,為千(qian)億參數AI大(da)模(mo)型在通用(yong)服務器的(de)推理部署,提(ti)供了性能更強,成本更經濟(ji)的(de)選(xuan)擇,讓AI大(da)模(mo)型應(ying)用(yong)可以與云、大(da)數據(ju)、數據(ju)庫等(deng)應(ying)用(yong)能夠(gou)實現更緊密的(de)融(rong)合,從(cong)而(er)充分釋放人(ren)工(gong)(gong)智(zhi)(zhi)能在千(qian)行百(bai)業中的(de)創新活(huo)力,讓人(ren)工(gong)(gong)智(zhi)(zhi)能真正"落入凡間(jian)",推動(dong)社會和經濟(ji)的(de)發展(zhan)。