北京2023年(nian)12月12日 /美通社/ -- 2023年,全(quan)球科技領域(yu)最重要的(de)事(shi),就是新一(yi)輪(lun)人工智能大模型(xing)競賽。隨(sui)著OpenAI公(gong)司發布ChatGPT一(yi)鳴驚人,國產(chan)大模型(xing)如雨后春(chun)筍般噴涌而出,"百模大戰"盛況吸引全(quan)球關(guan)注,大模型(xing)的(de)發展速度(du)日新月異。然(ran)而,大模型(xing)早(zao)已(yi)從單一(yi)技術比拼,升級為(wei)整個體系(xi)生態的(de)競爭,決勝關(guan)鍵點在于誰能夯實基礎(chu)、系(xi)統(tong)布局,更好迎(ying)接AI驅動的(de)"算力時(shi)代"。
近日,在AICC 2023人工智能計算大會上,新智元創始人&CEO楊靜在大模型創新主題圓桌論壇,與循環智能AI負責人陳虞君、中國科學院自動化研究所研究員張家俊、浪潮信息人工智能軟件研發總監吳韶華圍繞(rao)大模型時代(dai)的智算機遇、痛點與破局之道展開思想碰撞。
與會(hui)嘉賓指(zhi)出,中國大(da)(da)模(mo)型(xing)發展與應用落地仍處于探索時(shi)期,需要在算法、數據、算力三方(fang)面進(jin)行創新(xin),通過用戶反饋和實踐創新(xin)反哺大(da)(da)模(mo)型(xing),進(jin)一步夯實基(ji)礎大(da)(da)模(mo)型(xing)技術,推動大(da)(da)模(mo)型(xing)的場景化(hua)落地。
以下是圓桌問(wen)答(da)實錄整理:
楊靜:百模大戰各顯神通,頭部的玩家結合自己的優勢布局大模型,也想請各位分享一下各自的大模型業務布局。
陳虞君:"提升大模型長文本能力,降低幻覺問題"
循環(huan)智能(neng)基于ToB的服務經驗,我(wo)(wo)們希望能(neng)夠讓大模(mo)型的長文本能(neng)力(li)(li)盡可能(neng)在各種企(qi)業(ye)應(ying)用(yong)(yong)上產生價值,同(tong)時降低(di)大模(mo)型幻覺問題(ti)。我(wo)(wo)們的業(ye)務也是基于如何(he)提升改善大模(mo)型這兩(liang)(liang)個(ge)能(neng)力(li)(li)展開的,希望利用(yong)(yong)這兩(liang)(liang)個(ge)特性產生一些針對企(qi)業(ye)的更好(hao)用(yong)(yong)的大模(mo)型應(ying)用(yong)(yong)。
張家俊:"打造多模態大模型,解決實際問題"
我(wo)(wo)們暫時(shi)還沒有成(cheng)立(li)工程(cheng)實(shi)體,業務布局(ju)更多的(de)是ToB和ToG。除此之外,我(wo)(wo)們在做多模態大模型,可以更容易地(di)(di)落地(di)(di)行業場(chang)景。我(wo)(wo)們不強調是大語(yu)言模型或者多模通用,而是在實(shi)際(ji)場(chang)景當中(zhong)解(jie)決(jue)實(shi)際(ji)問(wen)題,通過我(wo)(wo)們的(de)探索,確實(shi)比以前降本增效了(le)(le),之前解(jie)決(jue)不了(le)(le)的(de)問(wen)題能(neng)夠(gou)解(jie)決(jue)了(le)(le)。
吳韶華:"筑基基礎大模型,助力行業落地"
浪(lang)潮信(xin)息始終把精力投入在基礎模型(xing)創新層面(mian),全面(mian)的(de)(de)賦能(neng)應用(yong)(yong)層的(de)(de)開發(fa)者、元腦生態伙伴去(qu)觸達最終的(de)(de)用(yong)(yong)戶。我們認(ren)為(wei)當前在大(da)模型(xing)領域,只(zhi)有(you)先把基礎模型(xing)能(neng)力真(zhen)正(zheng)提上(shang)去(qu)了(le),大(da)模型(xing)在行業應用(yong)(yong)層面(mian)才能(neng)真(zhen)正(zheng)解(jie)決碎片(pian)化的(de)(de)問題,才能(neng)更(geng)好的(de)(de)支撐行業場(chang)景(jing)的(de)(de)落地。
楊靜:基礎大模型發展的技術突破口是什么?我們應該如何破局,才能創造出高性能的大模型,盡快追趕上GPT4?
吳韶華:"算法數據雙創新,打造內部飛輪"
如果想接近甚至超越GPT4的(de)(de)能(neng)力,一定要(yao)同時考(kao)慮(lv)算法(fa)和數(shu)據(ju)。首先是(shi)(shi)(shi)算法(fa),不能(neng)一味(wei)的(de)(de)使用LIama結(jie)構(gou)(gou)或者Transformer結(jie)構(gou)(gou),而不做任(ren)何創新。其(qi)次是(shi)(shi)(shi)數(shu)據(ju),OpenAI的(de)(de)數(shu)據(ju)飛輪效應(ying)是(shi)(shi)(shi)非常顯著的(de)(de),他(ta)們(men)可以通過各(ge)種途徑收集非常多的(de)(de)實際用戶的(de)(de)真實反饋。在這種情(qing)況下,想要(yao)接近甚至超過GPT4的(de)(de)核心是(shi)(shi)(shi)創新,尤其(qi)是(shi)(shi)(shi)算法(fa)和數(shu)據(ju)兩方面的(de)(de)創新。
基于源2.0的(de)(de)實踐(jian),為了(le)(le)獲取高質(zhi)量(liang)的(de)(de)中文數(shu)學數(shu)據(ju),我(wo)(wo)們(men)清洗了(le)(le)從2018年至今約12PB的(de)(de)數(shu)據(ju),最后僅得到10GB的(de)(de)中文數(shu)學數(shu)據(ju)。而這不到10GB數(shu)據(ju)還(huan)有很大(da)的(de)(de)質(zhi)量(liang)提升(sheng)的(de)(de)空間。對此,我(wo)(wo)們(men)選擇用(yong)大(da)模型合成數(shu)據(ju),構建了(le)(le)內部(bu)的(de)(de)數(shu)據(ju)清洗工(gong)具和平臺,利用(yong)工(gong)具快速實現了(le)(le)內部(bu)獲取非常緊缺的(de)(de)數(shu)據(ju)、高質(zhi)量(liang)的(de)(de)數(shu)據(ju)。
張家俊:"跟隨無法超越,大膽創新、大膽嘗試,利用專長能力解決實際問題"
在(zai)追趕和超(chao)越GPT4的(de)過程中,我們面(mian)(mian)臨著不知道(dao)它(ta)的(de)算(suan)法,不知道(dao)用了哪些(xie)數(shu)(shu)據的(de)問(wen)題,這使得(de)(de)我們無法跟隨和全(quan)面(mian)(mian)驗證GPT4,只能在(zai)某些(xie)數(shu)(shu)據集上,在(zai)某些(xie)能力上超(chao)越了GPT4,沒有(you)一個全(quan)面(mian)(mian)的(de)、公認的(de)度量(liang)標準。所以跟隨它(ta)永(yong)遠超(chao)越不了,我覺(jue)得(de)(de)應(ying)該是創(chuang)新。一方(fang)面(mian)(mian)要(yao)從(cong)數(shu)(shu)據配(pei)比(bi)層面(mian)(mian)創(chuang)新,另(ling)外從(cong)模(mo)型算(suan)法創(chuang)新,在(zai)模(mo)型結構上大膽(dan)嘗試(shi)、大膽(dan)變(bian)化,跟隨是解決不了根本(ben)問(wen)題的(de)。
值(zhi)得注(zhu)意的(de)(de)是,我們并(bing)不一定需要達到GPT4的(de)(de)能力(li)才(cai)能將技術應用于實(shi)際場景中,比(bi)如我們解(jie)決(jue)了模態(tai)方面的(de)(de)理(li)解(jie)問(wen)題,解(jie)決(jue)了可(ke)控性,安全(quan)性的(de)(de)問(wen)題,很多領域(yu)都可(ke)以用,沒有必須達到GPT4的(de)(de)能力(li)。
陳虞君:"以終為始,加強用戶共創,發現模型局限性問題,實現創新突破"
對于大模(mo)型(xing)來說不(bu)存在真(zhen)正意義上的(de)(de)突破點(dian),比如沒有(you)大模(mo)型(xing)技(ji)術之前,谷歌的(de)(de)機器翻譯做的(de)(de)就很好了。不(bu)同的(de)(de)問(wen)題會有(you)不(bu)同的(de)(de)臨(lin)界點(dian),我們(men)需(xu)(xu)要具(ju)體分析,有(you)些問(wen)題可(ke)能大模(mo)型(xing)可(ke)以直接解(jie)決,而有(you)些問(wen)題則(ze)可(ke)能需(xu)(xu)要長時間的(de)(de)迭代(dai)。其次(ci),我們(men)不(bu)應(ying)只追求如何追趕或者超越GPT4,從構建、訓練(lian)一個大模(mo)型(xing)的(de)(de)角度來說,我們(men)更應(ying)該去(qu)思考怎(zen)么樣讓大模(mo)型(xing)理(li)解(jie)人類(lei)的(de)(de)意圖(tu),讓大模(mo)型(xing)真(zhen)正幫助(zhu)我們(men)完(wan)成任務。
我(wo)(wo)們以(yi)終為始去看這個問題,發(fa)現當前的模型(xing)存(cun)在(zai)很多(duo)局限(xian)(xian)性,比(bi)如(ru)不(bu)能支(zhi)持(chi)長文本、存(cun)在(zai)幻覺、語義理解輸出不(bu)穩定,包括GPT4也(ye)存(cun)在(zai)一(yi)些局限(xian)(xian)。這塊(kuai)我(wo)(wo)們做(zuo)了(le)兩方面努力(li),一(yi)方面,所(suo)以(yi)我(wo)(wo)們孵化了(le)一(yi)家ToC的公司,與所(suo)有(you)使用(yong)(yong)模型(xing)的用(yong)(yong)戶進行共(gong)創。另一(yi)方面,我(wo)(wo)們也(ye)廣泛的和我(wo)(wo)們B端(duan)的合作(zuo)伙(huo)伴進行共(gong)創,讓模型(xing)在(zai)合作(zuo)伙(huo)伴身上(shang)產生價值。我(wo)(wo)們相(xiang)信,只(zhi)有(you)盡可能多(duo)的使用(yong)(yong)模型(xing),才(cai)能知道模型(xing)的局限(xian)(xian)點在(zai)哪里,才(cai)能夠有(you)所(suo)創新突(tu)破。
楊靜:目前堆算力一直被認為是驅動大模型進化的有效手段,但是算力荒已經成為業界共有的問題,從貴公司的發展狀況來看,對于創新基礎設施,提升大模型訓練效率層面有哪些可以分享的經驗?
陳虞君:"用盡可能少的真實的數據實現盡可能好的訓練效果"
算(suan)(suan)力(li)荒(huang)現在(zai)是普遍(bian)存(cun)在(zai)的(de)(de)(de)(de)問(wen)題(ti),OpenAI也會存(cun)在(zai)算(suan)(suan)力(li)荒(huang)。我(wo)們能(neng)夠(gou)做的(de)(de)(de)(de)就是在(zai)盡(jin)(jin)(jin)可(ke)(ke)能(neng)少的(de)(de)(de)(de)資源的(de)(de)(de)(de)情(qing)況(kuang)下,能(neng)夠(gou)通過算(suan)(suan)法、數據(ju)上的(de)(de)(de)(de)創(chuang)新(xin),來(lai)應對這一(yi)問(wen)題(ti)。我(wo)們可(ke)(ke)以利用盡(jin)(jin)(jin)可(ke)(ke)能(neng)少的(de)(de)(de)(de)真實的(de)(de)(de)(de)數據(ju)實現盡(jin)(jin)(jin)可(ke)(ke)能(neng)好的(de)(de)(de)(de)效果,我(wo)們節省了(le)(le)很多算(suan)(suan)力(li)的(de)(de)(de)(de)情(qing)況(kuang)下達(da)到了(le)(le)相近或者更好的(de)(de)(de)(de)效果這種形式(shi)。從算(suan)(suan)法上來(lai)說我(wo)們借助(zhu)非常好的(de)(de)(de)(de)訓(xun)練(lian)方法,讓(rang)模型盡(jin)(jin)(jin)可(ke)(ke)能(neng)需(xu)要少的(de)(de)(de)(de)算(suan)(suan)力(li)的(de)(de)(de)(de)情(qing)況(kuang)下達(da)到盡(jin)(jin)(jin)可(ke)(ke)能(neng)好的(de)(de)(de)(de)效果。
張家俊:"算力是重要因素,但算力荒不會阻礙創新"
算力在訓練大模(mo)(mo)型時確實(shi)(shi)是一個重要(yao)(yao)因素,OpenAI使用大算力訓練出的(de)模(mo)(mo)型表現確實(shi)(shi)優于小算力訓練出來(lai)的(de)小模(mo)(mo)型,這是公認的(de)事實(shi)(shi)。然(ran)而,這并不意味(wei)著我(wo)(wo)(wo)們(men)必須擁有與OpenAI相當(dang)(dang)的(de)算力才能(neng)進行創(chuang)新,算力不會(hui)阻礙我(wo)(wo)(wo)們(men)的(de)創(chuang)新。盡管我(wo)(wo)(wo)們(men)可能(neng)需(xu)要(yao)(yao)訓練更長的(de)時間(jian),比(bi)如OpenAI訓練兩個月的(de)時間(jian)我(wo)(wo)(wo)們(men)需(xu)要(yao)(yao)訓練半年(nian),但只(zhi)要(yao)(yao)我(wo)(wo)(wo)們(men)擁有適(shi)當(dang)(dang)的(de)算法(fa)和數據,我(wo)(wo)(wo)們(men)仍(reng)然(ran)可以實(shi)(shi)現創(chuang)新。
吳韶華:"大模型結構、分布式訓練算法、數據協同優化,降低算力需求"
這(zhe)個問題(ti)的(de)本質在(zai)(zai)于大模(mo)(mo)(mo)型(xing)(xing)訓練(lian)(lian)時(shi)(shi),大家普遍(bian)認為(wei)算(suan)(suan)力(li)(li)(li)越(yue)大模(mo)(mo)(mo)型(xing)(xing)性能越(yue)高,但實(shi)際上這(zhe)個觀念(nian)(nian)主要來自(zi)于早期的(de)研究,當模(mo)(mo)(mo)型(xing)(xing)參數(shu)量(liang)(liang)(liang)和數(shu)據(ju)量(liang)(liang)(liang)增(zeng)大時(shi)(shi),模(mo)(mo)(mo)型(xing)(xing)的(de)精度會有(you)所(suo)提(ti)升(sheng)。但這(zhe)種提(ti)升(sheng)會被折算(suan)(suan)到算(suan)(suan)力(li)(li)(li)上,導(dao)致形(xing)成了(le)算(suan)(suan)力(li)(li)(li)越(yue)大模(mo)(mo)(mo)型(xing)(xing)性能越(yue)高的(de)觀念(nian)(nian)。但現在(zai)(zai)的(de)大模(mo)(mo)(mo)型(xing)(xing)訓練(lian)(lian)范式已經(jing)發生(sheng)了(le)變(bian)化,引入了(le)指(zhi)令微調,幾千條高質量(liang)(liang)(liang)的(de)數(shu)據(ju)就可(ke)以(yi)提(ti)升(sheng)模(mo)(mo)(mo)型(xing)(xing)能力(li)(li)(li),所(suo)以(yi)是否需(xu)要在(zai)(zai)預訓練(lian)(lian)階段(duan)投入大量(liang)(liang)(liang)算(suan)(suan)力(li)(li)(li)成為(wei)了(le)一(yi)個問題(ti)。
根(gen)據(ju)開(kai)發源2.0的(de)(de)(de)經(jing)驗來看,我們(men)清(qing)洗了互聯網(wang)上(shang)12PB的(de)(de)(de)數(shu)據(ju),只得到了10GB的(de)(de)(de)中文數(shu)學數(shu)據(ju)。在(zai)(zai)這種情(qing)況(kuang)下(xia)(xia)追(zhui)求(qiu)數(shu)據(ju)的(de)(de)(de)體(ti)量(liang)沒有(you)(you)意義(yi),如(ru)果能夠找到有(you)(you)效的(de)(de)(de)手段(duan)(duan)把數(shu)據(ju)量(liang)降下(xia)(xia)來,算(suan)(suan)力(li)需(xu)求(qiu)就(jiu)會(hui)降下(xia)(xia)來。在(zai)(zai)源2.0的(de)(de)(de)開(kai)發過程中,我們(men)整體(ti)數(shu)據(ju)體(ti)量(liang)并不大(da)(da),但是(shi)內(nei)部評估(gu)質量(liang)非常(chang)高,這是(shi)提升算(suan)(suan)力(li)效率(lv)的(de)(de)(de)一個非常(chang)有(you)(you)效的(de)(de)(de)手段(duan)(duan)。同(tong)時在(zai)(zai)設計(ji)模型(xing)結構的(de)(de)(de)時候,在(zai)(zai)相同(tong)的(de)(de)(de)架(jia)構下(xia)(xia)盡可(ke)能降低(di)(di)參數(shu)量(liang),這樣能提升參數(shu)效率(lv),也能節(jie)省(sheng)算(suan)(suan)力(li),相當于從算(suan)(suan)法層(ceng)面考慮算(suan)(suan)力(li)的(de)(de)(de)開(kai)銷。除(chu)此之外,目前成型(xing)的(de)(de)(de)分布式訓練(lian)算(suan)(suan)法,實現(xian)的(de)(de)(de)前提是(shi)芯片之間的(de)(de)(de)P2P帶寬(kuan)要足夠高,要滿(man)足張量(liang)并行對(dui)于通(tong)信(xin)巨大(da)(da)的(de)(de)(de)需(xu)求(qiu)。對(dui)于這種情(qing)況(kuang),我們(men)針(zhen)對(dui)算(suan)(suan)力(li)大(da)(da)規模分布訓練(lian)做了額外的(de)(de)(de)工(gong)作,可(ke)以降低(di)(di)大(da)(da)模型(xing)訓練(lian)過程中對(dui)于通(tong)信(xin)帶寬(kuan)的(de)(de)(de)需(xu)求(qiu),可(ke)以用更(geng)多(duo)樣化的(de)(de)(de)設備訓練(lian)大(da)(da)模型(xing)。
楊靜:大型預訓練模型已經展現出了強大的性能,但在行業中的應用仍然面臨一些挑戰,如部署、定制化、數據隱私和安全性等問題。那么,大家認為大型預訓練模型應如何走向行業并發揮其潛力呢?
陳虞君:"攜手合作伙伴、行業專家教授大模型行業知識"
循環(huan)智能(neng)從2019年(nian)開始做(zuo)商(shang)業(ye)(ye)(ye)化落地(di)(di),一(yi)(yi)直在思考如何實現(xian)AI模(mo)(mo)(mo)型(xing)(xing)落地(di)(di)行(xing)(xing)業(ye)(ye)(ye),所(suo)(suo)以(yi)(yi)在推出(chu)相關產(chan)(chan)品的(de)(de)(de)(de)(de)(de)時(shi)(shi)候(hou)(hou),也關注了一(yi)(yi)些包括(kuo)銀行(xing)(xing)、保險、汽車、房產(chan)(chan)等在內的(de)(de)(de)(de)(de)(de)十個左右(you)的(de)(de)(de)(de)(de)(de)行(xing)(xing)業(ye)(ye)(ye)需(xu)求(qiu)。今(jin)年(nian)在使用大模(mo)(mo)(mo)型(xing)(xing)去解(jie)決各(ge)個行(xing)(xing)業(ye)(ye)(ye)問(wen)題的(de)(de)(de)(de)(de)(de)時(shi)(shi)候(hou)(hou),我(wo)們(men)發(fa)(fa)現(xian)大模(mo)(mo)(mo)型(xing)(xing)落地(di)(di)一(yi)(yi)個比較有挑戰的(de)(de)(de)(de)(de)(de)點是(shi)(shi)每個行(xing)(xing)業(ye)(ye)(ye)都有不一(yi)(yi)樣(yang)的(de)(de)(de)(de)(de)(de)專(zhuan)業(ye)(ye)(ye)知(zhi)識(shi)和(he)knowhow,比如法(fa)(fa)(fa)律公司(si)對模(mo)(mo)(mo)型(xing)(xing)的(de)(de)(de)(de)(de)(de)輸出(chu)準確性要(yao)求(qiu)非(fei)常高,需(xu)要(yao)模(mo)(mo)(mo)型(xing)(xing)讀懂整篇的(de)(de)(de)(de)(de)(de)法(fa)(fa)(fa)律法(fa)(fa)(fa)規,并且必(bi)須一(yi)(yi)字不差地(di)(di)輸出(chu)法(fa)(fa)(fa)規內容,同時(shi)(shi)需(xu)要(yao)模(mo)(mo)(mo)型(xing)(xing)記住法(fa)(fa)(fa)律法(fa)(fa)(fa)規對應的(de)(de)(de)(de)(de)(de)章節號;而在房地(di)(di)產(chan)(chan)營銷(xiao)的(de)(de)(de)(de)(de)(de)場(chang)景(jing),通(tong)(tong)過對銷(xiao)售與客戶(hu)溝通(tong)(tong)場(chang)景(jing)的(de)(de)(de)(de)(de)(de)抽取,我(wo)們(men)發(fa)(fa)現(xian)類似(si)于"200的(de)(de)(de)(de)(de)(de)500"這(zhe)種(zhong)的(de)(de)(de)(de)(de)(de)行(xing)(xing)業(ye)(ye)(ye)"黑話",代(dai)表(biao)了房子面積(ji)是(shi)(shi)200平米,對應的(de)(de)(de)(de)(de)(de)是(shi)(shi)500萬的(de)(de)(de)(de)(de)(de)價格(ge);而對于金融(rong)行(xing)(xing)業(ye)(ye)(ye)需(xu)要(yao)理解(jie)財報表(biao)格(ge)信息,這(zhe)些都是(shi)(shi)大模(mo)(mo)(mo)型(xing)(xing)落地(di)(di)行(xing)(xing)業(ye)(ye)(ye)過程中我(wo)們(men)遇到的(de)(de)(de)(de)(de)(de)問(wen)題。所(suo)(suo)以(yi)(yi)實現(xian)大模(mo)(mo)(mo)型(xing)(xing)落地(di)(di)行(xing)(xing)業(ye)(ye)(ye)的(de)(de)(de)(de)(de)(de)最(zui)重要(yao)的(de)(de)(de)(de)(de)(de)一(yi)(yi)個步驟(zou),就是(shi)(shi)和(he)合作(zuo)伙(huo)伴(ban)、行(xing)(xing)業(ye)(ye)(ye)專(zhuan)家一(yi)(yi)起(qi)去教授大模(mo)(mo)(mo)型(xing)(xing)行(xing)(xing)業(ye)(ye)(ye)知(zhi)識(shi)。同時(shi)(shi),我(wo)們(men)也在構建(jian)一(yi)(yi)個合作(zuo)的(de)(de)(de)(de)(de)(de)形式,能(neng)夠讓盡(jin)可能(neng)多(duo)的(de)(de)(de)(de)(de)(de)合作(zuo)伙(huo)伴(ban)加入(ru)一(yi)(yi)起(qi)打造大模(mo)(mo)(mo)型(xing)(xing),通(tong)(tong)過大量的(de)(de)(de)(de)(de)(de)客戶(hu)反(fan)饋,發(fa)(fa)現(xian)模(mo)(mo)(mo)型(xing)(xing)當(dang)前存在的(de)(de)(de)(de)(de)(de)問(wen)題,找到下階段(duan)的(de)(de)(de)(de)(de)(de)進化方向。
張家俊:"放低姿態,用戶預期管理,多接觸,多耐心"
第(di)(di)一,放(fang)低(di)姿(zi)(zi)態(tai)。我們(men)的(de)(de)(de)大(da)(da)模(mo)(mo)型是(shi)讓大(da)(da)家(jia)拿去直接用(yong)的(de)(de)(de),很多(duo)(duo)場景下我們(men)要放(fang)低(di)自己(ji)的(de)(de)(de)姿(zi)(zi)態(tai)。第(di)(di)二(er),用(yong)戶(hu)預期(qi)管理。我們(men)需(xu)要給出一個(ge)解(jie)決(jue)(jue)問題(ti)所(suo)需(xu)時間的(de)(de)(de)預期(qi),因為(wei)不(bu)同(tong)行業會(hui)有各種不(bu)同(tong)的(de)(de)(de)問題(ti)需(xu)要解(jie)決(jue)(jue),我們(men)要避免給客戶(hu)過高的(de)(de)(de)預期(qi),實事(shi)求是(shi)地(di)解(jie)決(jue)(jue)問題(ti)。第(di)(di)三,多(duo)(duo)接觸。讓大(da)(da)家(jia)多(duo)(duo)使(shi)用(yong),發現問題(ti)、解(jie)決(jue)(jue)問題(ti),從(cong)用(yong)戶(hu)反(fan)饋的(de)(de)(de)角(jiao)度會(hui)越(yue)來(lai)越(yue)好(hao)。第(di)(di)四(si),多(duo)(duo)耐心(xin)。不(bu)管做大(da)(da)模(mo)(mo)型,還是(shi)作為(wei)用(yong)戶(hu),培養大(da)(da)家(jia)多(duo)(duo)耐心(xin),未來(lai)肯定越(yue)來(lai)越(yue)好(hao)。
吳韶華:"大模型共訓,賦能開發者觸達應用場景"
對于源(yuan)2.0模型(xing)來(lai)說,我(wo)(wo)們(men)推(tui)出大(da)模型(xing)共訓計劃,這個(ge)計劃的(de)(de)(de)(de)核心出發點(dian)希望(wang)能(neng)夠讓我(wo)(wo)們(men)的(de)(de)(de)(de)研發團隊,能(neng)夠接(jie)觸到(dao)所有的(de)(de)(de)(de)開(kai)(kai)發者(zhe)。開(kai)(kai)發者(zhe)提出自己的(de)(de)(de)(de)應(ying)用或(huo)場(chang)景的(de)(de)(de)(de)需求(qiu),提供(gong)1~2條示例,由(you)我(wo)(wo)們(men)來(lai)準(zhun)備(bei)訓練數(shu)據并對源(yuan)大(da)模型(xing)進行(xing)(xing)增強(qiang)訓練,訓練后的(de)(de)(de)(de)模型(xing)依然在社(she)區開(kai)(kai)源(yuan)。同時,我(wo)(wo)們(men)還(huan)有另外(wai)一種形式,浪潮信(xin)息(xi)會賦能(neng)合(he)作伙伴,把我(wo)(wo)們(men)在模型(xing)能(neng)力上的(de)(de)(de)(de)經(jing)驗(yan)提供(gong)給他們(men),助力伙伴們(men)把這些應(ying)用到(dao)行(xing)(xing)業當中。
楊靜:現如今大家都面臨著算力緊缺的問題,大模型訓練也離不開充足算力的支持。所以請問各位嘉賓,目前看到或者正在做哪些工作來適應算力多元化的時代趨勢的?
陳虞君:"避免算力重復和浪費,集中行業知識合作共訓"
大(da)家(jia)的訓練應該是合作共(gong)訓的邏輯,不(bu)同(tong)的行業會有不(bu)同(tong)的知(zhi)識(shi)(shi),我們應該盡可能(neng)(neng)地(di)匯(hui)聚這些(xie)知(zhi)識(shi)(shi),利用有限(xian)的算(suan)力(li)資(zi)源共(gong)訓,這樣就能(neng)(neng)夠達到節省算(suan)力(li)的地(di)步,避免大(da)量(liang)算(suan)力(li)的重復(fu)和(he)浪費(fei)。
張家俊:"不會把雞蛋放在一個籃子里,走國產化大模型之路"
我們的(de)做(zuo)法是不會把(ba)雞蛋放在一個籃子(zi)里(li),我們也會用到(dao)國(guo)內外的(de)各種算力。我們從(cong)2020年開始走國(guo)產化的(de)大(da)模型(xing)道路(lu),一直堅持這(zhe)條路(lu),幾乎國(guo)內所有的(de)芯片(pian)算力都(dou)適(shi)配過,這(zhe)樣(yang)可以保(bao)證我們有能力保(bao)留訓(xun)練大(da)模型(xing)的(de)方案(an)。
吳韶華:"從系統層面應對算力多元化趨勢"
浪潮信息開發了(le)一(yi)(yi)套(tao)框(kuang)架(jia),利用這套(tao)框(kuang)架(jia)里面的(de)一(yi)(yi)層,可以專(zhuan)門(men)管理(li)各類算力,我們從系統的(de)角度為業界面向多元算力提供(gong)一(yi)(yi)個方(fang)案。