北京2023年8月31日 /美通社/ -- 與狹義的人工智能相比,通用人工智能通過跨領域、跨學科、跨任務和跨模態的大模型,能夠滿足更廣泛的場景需求、實現更高程度的邏輯理解能力與使用工具能力。2023年,隨著 LLM 大規模語言模型技術的不斷突破,大模型為探索更高階的通用人工智能帶來了新的曙光。通用人工智(zhi)能進入了快(kuai)速發展期,在中國(guo),大模型已經呈現(xian)出百花齊放的態勢(shi),各種大模型層出不窮。
要想在"百模爭秀"的時代占得先機,AI開發團隊需要著力化解算力、算法、數據層面的巨大挑戰,而開發效率和訓練速度是保障大模型市場競爭力的核心關鍵因素,也是未來的核心發力點。近日,浪潮信(xin)息人工智能與高性能應用軟件部(bu) AI 架(jia)構師(shi)Owen ZHU參與首屆由CSDN、《新(xin)程序(xu)員》聯合主(zhu)辦的NPCon大會,發表重(zhong)要技術演講,分享面向新(xin)一輪AIGC產(chan)業革命,AI大模型的算力系統(tong)(tong)解決之道(dao),并(bing)強調(diao)算力、算法、數(shu)據和系統(tong)(tong)架(jia)構等多個方(fang)面的綜合優化對大模型訓練到了至關重(zhong)要的作用。
以下為Owen ZHU在NPCon大會的(de)演講實錄整理:
大(da)模型(xing)研發(fa)的核(he)心(xin)技術(shu)是(shi)由預訓練與Alignment組成的,第(di)一部分(fen)就(jiu)是(shi)預訓練,需要用(yong)大(da)量的數據使模型(xing)收斂速度更快、性能更好。第(di)二部分(fen)則(ze)是(shi)Alignment,Alignment不完全等于(yu)強(qiang)化(hua)學習,其通過使用(yong)多種方式/策略優化(hua)模型(xing)輸出(chu),讓AI在和(he)人的交(jiao)流反饋中(zhong)學會如何溝通表達,這兩(liang)部分(fen)是(shi)提升大(da)模型(xing)質(zhi)量的核(he)心(xin)要素。
目(mu)前來看,模(mo)(mo)(mo)型(xing)(xing)基礎能(neng)(neng)力取決于數(shu)據、模(mo)(mo)(mo)型(xing)(xing)參(can)數(shu)量和算力。模(mo)(mo)(mo)型(xing)(xing)參(can)數(shu)量越(yue)大(da)、投入的(de)(de)(de)訓(xun)練(lian)數(shu)據越(yue)大(da),模(mo)(mo)(mo)型(xing)(xing)泛化能(neng)(neng)力越(yue)強。由于資源限(xian)制(zhi),在兩(liang)者(zhe)不(bu)可兼(jian)得的(de)(de)(de)時(shi)候,應該如何進(jin)行取舍呢(ni)?OpenAI的(de)(de)(de)研究結論認為,與增加(jia)數(shu)據量相比,先(xian)增大(da)模(mo)(mo)(mo)型(xing)(xing)參(can)數(shu)量受益(yi)則會更(geng)好,用一千億(yi)的(de)(de)(de)模(mo)(mo)(mo)型(xing)(xing)訓(xun)練(lian)兩(liang)千億(yi)的(de)(de)(de)Token和兩(liang)千億(yi)模(mo)(mo)(mo)型(xing)(xing)訓(xun)練(lian)一千億(yi)的(de)(de)(de)Token,后者(zhe)的(de)(de)(de)模(mo)(mo)(mo)型(xing)(xing)性能(neng)(neng)會更(geng)高。
由此(ci)可(ke)見,參(can)數量是衡(heng)量模型能(neng)力(li)的一(yi)個重要(yao)指標,當模型參(can)數量增長(chang)超過一(yi)定閾值時,模型能(neng)力(li)表(biao)(biao)現(xian)出(chu)躍遷(qian)式的提升,表(biao)(biao)現(xian)出(chu)來語言理(li)解能(neng)力(li)、生成能(neng)力(li)、邏輯推理(li)能(neng)力(li)等能(neng)力(li)的顯著(zhu)提升,這也就是我們所說的模型的涌現(xian)能(neng)力(li)。
模(mo)型(xing)(xing)規模(mo)多(duo)大能(neng)產生涌現能(neng)力呢?現在(zai)來(lai)看(kan),百億(yi)參(can)(can)(can)(can)數(shu)是模(mo)型(xing)(xing)具備涌現能(neng)力的(de)(de)門檻(jian),千(qian)億(yi)參(can)(can)(can)(can)數(shu)的(de)(de)模(mo)型(xing)(xing)具備較好的(de)(de)涌現能(neng)力。但(dan)這并(bing)不(bu)意味著模(mo)型(xing)(xing)規模(mo)就要(yao)上(shang)升到萬億(yi)規模(mo)級別(bie)的(de)(de)競(jing)爭,因為現有大模(mo)型(xing)(xing)并(bing)沒有得到充分訓(xun)練,如(ru)GPT-3的(de)(de)每(mei)個(ge)參(can)(can)(can)(can)數(shu)基(ji)本上(shang)只訓(xun)練了(le)1-2個(ge)Token,DeepMind的(de)(de)研究表(biao)明,如(ru)果把一個(ge)大模(mo)型(xing)(xing)訓(xun)練充分,需要(yao)把每(mei)個(ge)參(can)(can)(can)(can)數(shu)量訓(xun)練20個(ge)Token。所(suo)以,當前的(de)(de)很多(duo)千(qian)億(yi)規模(mo)的(de)(de)大模(mo)型(xing)(xing)還需要(yao)用多(duo)10倍的(de)(de)數(shu)據進行訓(xun)練,模(mo)型(xing)(xing)性能(neng)才能(neng)達(da)到比較好的(de)(de)水平。
無論是提高模型參數量還是提升數據規模,算力依舊是大模型能力提升的核心驅動力:需要用"足夠大"的算力,去支撐起"足夠精準"模型泛化能力。當(dang)前(qian)大(da)(da)模(mo)型(xing)訓(xun)練的(de)算力當(dang)量(liang)還在進一步增大(da)(da),從GPT-3到GPT-4算力當(dang)量(liang)增長了68倍。算力當(dang)量(liang)越大(da)(da),交叉熵越小,模(mo)型(xing)能力越強。隨(sui)著訓(xun)練的(de)token數(shu)(shu)、模(mo)型(xing)參(can)數(shu)(shu)、計算量(liang)的(de)增加,語言(yan)模(mo)型(xing)的(de)loss在平滑下(xia)降,這就意味(wei)著大(da)(da)語言(yan)模(mo)型(xing)的(de)精度可以隨(sui)著計算量(liang)、參(can)數(shu)(shu)規模(mo)、token數(shu)(shu)擴展(zhan)進一步提升。
大(da)模(mo)型(xing)能(neng)力來源于大(da)量工程實踐經驗,預訓(xun)(xun)練(lian)的工程挑戰巨大(da),這表現(xian)在如(ru)下幾個方面:首先,AI大(da)模(mo)型(xing)的演化對于集(ji)群的并行運(yun)算效率(lv)、片上存儲、帶寬、低延時的訪存等也都(dou)提出了較(jiao)高的需(xu)求,萬卡AI平臺的規(gui)劃建設、性能(neng)調優、算力調度(du)都(dou)是很(hen)難解決的難題(ti);其次(ci),大(da)規(gui)模(mo)訓(xun)(xun)練(lian)普遍存在硬件(jian)故障(zhang)、梯度(du)爆炸等小規(gui)模(mo)訓(xun)(xun)練(lian)不會遇到(dao)的問題(ti);再次(ci),工程實踐方面的缺乏導(dao)致企業難以在模(mo)型(xing)質(zhi)量上實現(xian)快速提升。
作為(wei)(wei)最(zui)早布局大(da)(da)模(mo)(mo)(mo)(mo)型(xing)(xing)的企業(ye)(ye)之一,浪潮(chao)信息在(zai)(zai)業(ye)(ye)界率先(xian)推出(chu)了(le)中(zhong)(zhong)文AI巨(ju)量(liang)模(mo)(mo)(mo)(mo)型(xing)(xing)"源1.0",參數規(gui)模(mo)(mo)(mo)(mo)高(gao)達(da)2457億(yi)。千億(yi)參數規(gui)模(mo)(mo)(mo)(mo)的大(da)(da)模(mo)(mo)(mo)(mo)型(xing)(xing)創新(xin)實踐,使得浪潮(chao)信息在(zai)(zai)大(da)(da)模(mo)(mo)(mo)(mo)型(xing)(xing)領(ling)域積累了(le)實戰(zhan)技(ji)術經驗并(bing)(bing)擁有專業(ye)(ye)的研(yan)發團(tuan)隊,為(wei)(wei)業(ye)(ye)界提(ti)供AI算(suan)(suan)力系統參考設計(ji)。在(zai)(zai)算(suan)(suan)力效(xiao)率層(ceng)面(mian),針對(dui)大(da)(da)模(mo)(mo)(mo)(mo)型(xing)(xing)訓(xun)練(lian)(lian)中(zhong)(zhong)存(cun)在(zai)(zai)計(ji)算(suan)(suan)模(mo)(mo)(mo)(mo)式(shi)復(fu)雜,算(suan)(suan)力集(ji)(ji)群性能較低的情(qing)況,源1.0在(zai)(zai)大(da)(da)規(gui)模(mo)(mo)(mo)(mo)分(fen)布式(shi)訓(xun)練(lian)(lian)中(zhong)(zhong)采用(yong)了(le)張量(liang)并(bing)(bing)行、流水(shui)線(xian)并(bing)(bing)行和數據并(bing)(bing)行的三維并(bing)(bing)行策(ce)略,訓(xun)練(lian)(lian)耗時(shi)約15天,共計(ji)訓(xun)練(lian)(lian)了(le)180 billion token,并(bing)(bing)將模(mo)(mo)(mo)(mo)型(xing)(xing)最(zui)后的loss值收斂至1.73,顯著低于GPT-3等業(ye)(ye)界其他語(yu)言模(mo)(mo)(mo)(mo)型(xing)(xing)。首次(ci)提(ti)出(chu)面(mian)向效(xiao)率和精度優(you)化(hua)(hua)的大(da)(da)模(mo)(mo)(mo)(mo)型(xing)(xing)結(jie)構協同(tong)設計(ji)方法,圍繞深度學習(xi)框(kuang)架、訓(xun)練(lian)(lian)集(ji)(ji)群IO、通信開展(zhan)了(le)深入優(you)化(hua)(hua),在(zai)(zai)僅采用(yong)2x200G互聯的情(qing)況下,源1.0的算(suan)(suan)力效(xiao)率達(da)到45%,算(suan)(suan)力效(xiao)率世界領(ling)先(xian)。在(zai)(zai)集(ji)(ji)群高(gao)速(su)互聯層(ceng)面(mian),基于原(yuan)生(sheng)RDMA實現整個(ge)集(ji)(ji)群的全線(xian)速(su)組網,并(bing)(bing)對(dui)網絡(luo)拓撲進行優(you)化(hua)(hua),可以有效(xiao)消除混合計(ji)算(suan)(suan)的計(ji)算(suan)(suan)瓶頸,確保集(ji)(ji)群在(zai)(zai)大(da)(da)模(mo)(mo)(mo)(mo)型(xing)(xing)訓(xun)練(lian)(lian)時(shi)始終處于最(zui)佳狀態(tai)。
當前(qian),中國和業界先進水平大模型的算力差(cha)距依(yi)然較大,從算力當量來(lai)看,GPT-4的算力當量已經達(da)到了248,842PD,而國內(nei)大多數主流的大模型算力大量僅為數千PD,差(cha)距高達(da)近百(bai)倍(bei)。
同時(shi),中國和業界先(xian)進水(shui)平(ping)大模型(xing)在(zai)算(suan)法、數據(ju)方面也存(cun)在(zai)巨(ju)大差距。在(zai)算(suan)法方面,雖然開源為國內(nei)大模型(xing)發展帶來了(le)彎道超車(che)的良機(ji),但LLaMA等開源大模型(xing)相比GPT4等頂級水(shui)平(ping)自研模型(xing)的性能,開源模型(xing)的能力存(cun)在(zai)"天花板"。
在(zai)(zai)數(shu)據(ju)(ju)方面,中(zhong)(zhong)文(wen)數(shu)據(ju)(ju)集(ji)(ji)和英(ying)文(wen)數(shu)據(ju)(ju)集(ji)(ji)相比較,在(zai)(zai)規模、質量(liang)上均(jun)存在(zai)(zai)顯著差距,相較于動輒數(shu)千億單詞量(liang)級的(de)(de)英(ying)文(wen)數(shu)據(ju)(ju),中(zhong)(zhong)文(wen)大模型的(de)(de)數(shu)據(ju)(ju)量(liang)級僅為百億左(zuo)右,而(er)且開(kai)源(yuan)程(cheng)度較低,封閉程(cheng)度較高。
開發(fa)大模(mo)型(xing)、發(fa)展通(tong)(tong)用人(ren)工智能是(shi)一項(xiang)非(fei)常復雜的(de)系統工程,我們亟需從系統層(ceng)面(mian)為未來大模(mo)型(xing)的(de)良(liang)好生(sheng)態發(fa)展尋(xun)找最優解。從實戰中(zhong)走來,通(tong)(tong)過(guo)構建高效(xiao)穩定的(de)智算(suan)系統,加速模(mo)型(xing)開發(fa)效(xiao)率(lv)提升。
日前,浪潮信息大模型智算軟件棧OGAI(Open GenAI Infra)——"元腦生智"已正式發布。浪潮信息正通過"工具化、系統化、全鏈條"的全棧賦能能力,讓煉大模型省時、省力,讓大模型更快、更穩、更智能,助力百模真正實現"競速AIGC"。