亚洲在线日韩伦理片,96精品国产AⅤ一区二区,青鸟影视网,yy黄色频道,国内精品久久久精品AV电影院

浪潮信息發布 "源2.0-M32" 開源大模型,大幅提升模算效率

2024-05-30 17:52 3935

北京2024年5月30日 /美通社/ -- 5月28日,浪潮信息發布"源2.0-M32"開源大模型。"源2.0-M32"在基于"源2.0"系列大模型已有工作基礎上,創新性地提出和采用了"基于注意力機制的門控網絡"技術,構建包含32個專家(Expert)的混合專家模型(MoE),并大幅提升了模型算力效率,模型運行時激活參數為37億,在業界主流基準評測中性能全面對標700億參數的LLaMA3開源大模型。

在算法層面,源2.0-M32提出并采用了一種新型的算法結構:基于注意力機制的門控網絡(Attention Router),針對(dui)MoE模型核心(xin)的(de)專(zhuan)家調度(du)(du)策(ce)略,這種新的(de)算(suan)法(fa)結(jie)構關注專(zhuan)家模型之間的(de)協同(tong)性(xing)度(du)(du)量,有(you)效解決傳(chuan)統門控網絡下,選擇兩個或多(duo)個專(zhuan)家參與計算(suan)時(shi)關聯性(xing)缺失(shi)的(de)問題,使得專(zhuan)家之間協同(tong)處理(li)數據的(de)水(shui)平大為提(ti)升。源2.0-M32采用源2.0-2B為基(ji)礎(chu)模型設計,沿(yan)用并(bing)融合局(ju)部過(guo)濾增強的(de)注意力(li)機制(LFA, Localized Filtering-based Attention),通(tong)過(guo)先學習相鄰詞之間的(de)關聯性(xing),然后再計算(suan)全局(ju)關聯性(xing)的(de)方法(fa),能夠(gou)更(geng)好地學習到自(zi)然語言的(de)局(ju)部和全局(ju)的(de)語言特征,對(dui)于(yu)自(zi)然語言的(de)關聯語義理(li)解更(geng)準確,進(jin)而提(ti)升了模型精度(du)(du)。


Figure1- 基于注意力機制的(de)門控網(wang)絡(luo)(Attention Router)

在數據層面,源(yuan)2.0-M32基于(yu)2萬億(yi)的(de)(de)token進行訓練、覆蓋萬億(yi)量級的(de)(de)代(dai)碼、中(zhong)英(ying)(ying)文書籍、百科、論文及合(he)成數據。大幅擴展代(dai)碼數據占比至47.5%,從6類最(zui)流行的(de)(de)代(dai)碼擴充至619類,并通過對代(dai)碼中(zhong)英(ying)(ying)文注釋的(de)(de)翻譯,將(jiang)中(zhong)文代(dai)碼數據量增大至1800億(yi)token。結合(he)高效的(de)(de)數據清(qing)洗流程,滿足大模型訓練"豐(feng)富性(xing)、全(quan)面(mian)性(xing)、高質量";的(de)(de)數據集(ji)需(xu)求。基于(yu)這(zhe)些數據的(de)(de)整合(he)和擴展,源(yuan)2.0-M32在代(dai)碼生成、代(dai)碼理解、代(dai)碼推理、數學求解等方面(mian)有著(zhu)出色(se)的(de)(de)表(biao)現。

在算力層面,源(yuan)2.0-M32采(cai)用(yong)了(le)流水(shui)并(bing)(bing)行的(de)(de)方(fang)法,綜合運(yun)用(yong)流水(shui)線并(bing)(bing)行+數(shu)據并(bing)(bing)行的(de)(de)策(ce)略,顯著降低了(le)大模(mo)(mo)型對芯片間P2P帶寬的(de)(de)需求,為硬件差異(yi)較大訓練環境提供了(le)一(yi)種高性(xing)能的(de)(de)訓練方(fang)法。針對MOE模(mo)(mo)型的(de)(de)稀疏專家計算(suan),采(cai)用(yong)合并(bing)(bing)矩陣乘法的(de)(de)方(fang)法,模(mo)(mo)算(suan)效率得到大幅提升(sheng)。

基于在算法、數據和算力方面全面創新,源2.0-M32的性能得以大幅提升,在多個業界主流的評測任務中,展示出了較為先進的能力表現,MATH(數學競賽)、ARC-C(科學推理)榜單上超越了擁有700億參數的LLaMA3大模型。


Figure2 源2.0-M32業界主流評測任務表現

源2.0-M32大幅提升了模型算力效率,在實現與業界領先開源大模型性能相當的同時,顯著降低了在模型訓練、微調和推理所需的算力開銷。在模型推理運行階段,M32處理每token所需算力為7.4GFLOPs,而LLaMA3-70B所需算力為140GFLOPs。在模型微調訓練階段,對1萬條平均長度為1024 token的樣本進行全量微調,M32消耗算力約0.0026PD(PetaFLOPs/s-day),而LLaMA3消耗算力約為0.05PD。M32憑借特別優化設計的模型架構,在僅激活37億參數的情況下,取得了和700億參數LLaMA3相當的性能水平,而所消耗算力僅為LLaMA3的1/19,從而實現了更高的模算效率。

浪潮信息人工智能首席科學家吳韶華表示:當前業界大模型在性能不斷提升的同時,也面臨著所消耗算力大幅攀升的問題,對企業落地應用大模型帶來了極大的困難和挑戰。源2.0-M32是浪潮信息在大模型領域持續耕耘的最新探索成果,通過在算法、數據、算力等方面的全面創新,M32不僅可以提供與業界領先開源大模型相當的性能,更可以大幅降低大模型所需算力消耗。大幅提升的模算效率將為企業開發應用生成式AI提供模型高性能、算力低門檻的高效路徑。M32開源大模型配合企業(ye)(ye)大模型開發平臺EPAI(Enterprise Platform of AI),將助力企業(ye)(ye)實現(xian)更快(kuai)的技術(shu)迭代與高效的應用落地,為人工(gong)智能產(chan)(chan)業(ye)(ye)的發展提供堅實的底(di)座(zuo)和成(cheng)長的土壤(rang),加速產(chan)(chan)業(ye)(ye)智能化進(jin)程。

2.0-M32將持續采用全面開源策略,全系列模型參數和代碼均可免費下載使用。

代碼開源鏈接:

模型下載鏈接:
Huggingface:
ModelScope:

消息來源:浪潮信息
全球TMT
微信公眾號“全球TMT”發布全球互聯網、科技、媒體、通訊企業的經營動態、財報信息、企業并購消息。掃描二維碼,立即訂閱!
collection