亚洲在线日韩伦理片,96精品国产AⅤ一区二区,青鸟影视网,yy黄色频道,国内精品久久久精品AV电影院

《開放加速規范AI服務器設計指南》發布,應對生成式AI算力挑戰

2023-08-11 18:37 5754

北京2023年8月11日 /美通(tong)社(she)/ -- 8月10日,在2023年開(kai)(kai)放計算(suan)社(she)區中國峰會(OCP China Day 2023)上,《開(kai)(kai)放加(jia)速(su)規范AI服務器設(she)計指南(nan)》(以下簡稱(cheng)《指南(nan)》)發(fa)(fa)布。《指南(nan)》面向生成(cheng)式(shi)AI應用場景,進一步發(fa)(fa)展(zhan)和(he)完善了開(kai)(kai)放加(jia)速(su)規范AI服務器的(de)設(she)計理論和(he)設(she)計方(fang)(fang)法,將(jiang)助力(li)社(she)區成(cheng)員高效開(kai)(kai)發(fa)(fa)符合開(kai)(kai)放加(jia)速(su)規范的(de)AI加(jia)速(su)卡,并大幅縮(suo)短與AI服務器的(de)適配(pei)周(zhou)期,為用戶提(ti)供最佳(jia)匹(pi)配(pei)應用場景的(de)AI算(suan)力(li)產品方(fang)(fang)案,把(ba)握生成(cheng)式(shi)AI爆發(fa)(fa)帶(dai)來(lai)的(de)算(suan)力(li)產業巨(ju)大機(ji)遇。


當前(qian),生(sheng)成(cheng)式AI技術飛速(su)(su)發(fa)展(zhan),引(yin)領了新(xin)一輪AI創新(xin)浪潮。AI大(da)模型(xing)是生(sheng)成(cheng)式AI的(de)(de)(de)關鍵底(di)座,對生(sheng)產效(xiao)率提升、傳統產業(ye)轉型(xing)升級具(ju)有(you)(you)重大(da)的(de)(de)(de)價值潛力,而大(da)模型(xing)的(de)(de)(de)高(gao)(gao)效(xiao)訓練通常需(xu)(xu)要(yao)具(ju)備(bei)千卡以上高(gao)(gao)算(suan)(suan)力AI芯(xin)片(pian)構成(cheng)的(de)(de)(de)AI服務(wu)器(qi)集群支撐(cheng)。隨(sui)著生(sheng)成(cheng)式AI加(jia)速(su)(su)落地,業(ye)界(jie)對配置高(gao)(gao)算(suan)(suan)力AI芯(xin)片(pian)的(de)(de)(de)AI服務(wu)器(qi)需(xu)(xu)求也(ye)不(bu)斷高(gao)(gao)漲。在此背景下(xia),全球已有(you)(you)上百家公司投入新(xin)型(xing)AI加(jia)速(su)(su)芯(xin)片(pian)的(de)(de)(de)開(kai)發(fa),AI計算(suan)(suan)芯(xin)片(pian)多元化趨勢凸顯。由于缺(que)乏統一的(de)(de)(de)業(ye)界(jie)規范,不(bu)同廠商的(de)(de)(de)AI加(jia)速(su)(su)芯(xin)片(pian)存在顯著差異,導(dao)致不(bu)同芯(xin)片(pian)需(xu)(xu)要(yao)定(ding)制化的(de)(de)(de)系統硬件(jian)平臺承載,帶來更(geng)(geng)高(gao)(gao)的(de)(de)(de)開(kai)發(fa)成(cheng)本(ben)和更(geng)(geng)長的(de)(de)(de)開(kai)發(fa)周期。

OCP是全(quan)球基(ji)礎硬件(jian)技術領域覆蓋面最廣、最有影響力的(de)(de)(de)開(kai)源(yuan)組織。2019年OCP成立OAI(Open Accelerator Infrastructure)小(xiao)組,對(dui)更適合超(chao)大(da)規(gui)(gui)模深度(du)學習訓練的(de)(de)(de)AI加(jia)(jia)(jia)速卡(ka)形(xing)態進(jin)行了(le)(le)定義(yi),以(yi)解決(jue)多元(yuan)AI加(jia)(jia)(jia)速卡(ka)形(xing)態和接口不統一的(de)(de)(de)問(wen)題。2019年底,OCP正(zheng)式(shi)發布了(le)(le)OAI-UBB(Universal Baseboard)1.0設(she)計規(gui)(gui)范(fan),并隨后推出了(le)(le)基(ji)于OAI-UBB1.0規(gui)(gui)范(fan)的(de)(de)(de)開(kai)放加(jia)(jia)(jia)速硬件(jian)平臺,無需硬件(jian)修改即可支持不同廠商(shang)的(de)(de)(de)OAM產品(pin)。近年來,以(yi)浪潮信息為代表的(de)(de)(de)系統廠商(shang)研制了(le)(le)多款符合開(kai)放加(jia)(jia)(jia)速規(gui)(gui)范(fan)的(de)(de)(de)AI服務器(qi),實現了(le)(le)開(kai)放加(jia)(jia)(jia)速AI服務器(qi)的(de)(de)(de)產業化實踐。

基于(yu)在開放(fang)加速(su)(su)計(ji)(ji)(ji)算領域的(de)產品(pin)研發(fa)和(he)工程實踐經驗,《指南》進(jin)一步發(fa)展(zhan)和(he)完善(shan)了開放(fang)加速(su)(su)規(gui)范AI服務器(qi)的(de)設(she)(she)(she)計(ji)(ji)(ji)理論和(he)設(she)(she)(she)計(ji)(ji)(ji)方法,提出(chu)四大(da)設(she)(she)(she)計(ji)(ji)(ji)原(yuan)則、全棧(zhan)設(she)(she)(she)計(ji)(ji)(ji)方法,包(bao)括(kuo)硬件設(she)(she)(she)計(ji)(ji)(ji)參考、管理接口(kou)規(gui)范和(he)性能測試標準,旨(zhi)在幫助社區(qu)成員更快更好(hao)地開發(fa)AI加速(su)(su)卡并適配開放(fang)加速(su)(su)AI服務器(qi),應(ying)對生成式AI的(de)算力挑戰。

《指南》指出,開放加速(su)規范(fan)AI服務(wu)器設(she)(she)計應(ying)遵(zun)循四(si)大設(she)(she)計原(yuan)則(ze),即應(ying)用(yong)(yong)導向、多元開放、綠色高效、統(tong)籌設(she)(she)計。在此基礎(chu)上,應(ying)采用(yong)(yong)多維協同設(she)(she)計、全面系統(tong)測(ce)試和(he)性能測(ce)評調優的(de)設(she)(she)計方法,以提高適配部署效率、系統(tong)穩(wen)定性、系統(tong)可(ke)用(yong)(yong)性。

多(duo)維(wei)協(xie)同設(she)(she)計(ji)是(shi)指(zhi)(zhi)系統廠商和(he)芯(xin)片廠商在規劃初期要做好全方位、多(duo)維(wei)度(du)的(de)協(xie)同,最大化減少定制(zhi)開發(fa)內容。大模型計(ji)算系統通常是(shi)一體化高(gao)集(ji)(ji)成度(du)算力(li)集(ji)(ji)群,包含計(ji)算、存儲、網絡設(she)(she)備,軟(ruan)件(jian)、框(kuang)架、模型組件(jian),機(ji)柜、制(zhi)冷、供電、液(ye)冷基礎設(she)(she)施(shi)等。只有(you)通過(guo)多(duo)維(wei)協(xie)同,才能(neng)實現(xian)全局最優的(de)性能(neng)、能(neng)效或TCO指(zhi)(zhi)標,提高(gao)系統適配和(he)集(ji)(ji)群部署(shu)效率。《指(zhi)(zhi)南(nan)》給出(chu)了從(cong)節點到集(ji)(ji)群的(de)軟(ruan)硬(ying)全棧參(can)考設(she)(she)計(ji)。

全面系(xi)統(tong)測(ce)(ce)試是指異構加(jia)速計算節點通(tong)常故障率高,需要(yao)更加(jia)全面、嚴苛的(de)測(ce)(ce)試,才(cai)能最大程度降(jiang)低系(xi)統(tong)生產、部(bu)署、運行過程中的(de)故障風險,提(ti)高系(xi)統(tong)穩定性(xing),減少(shao)斷點對(dui)訓練(lian)持續性(xing)的(de)影響。《指南》對(dui)結(jie)構、散熱(re)、壓力、穩定性(xing)、軟件(jian)兼容性(xing)等(deng)方面的(de)測(ce)(ce)試要(yao)點進(jin)行了全面梳理。

性(xing)能(neng)(neng)(neng)(neng)測評(ping)調(diao)(diao)優是(shi)指(zhi)需要(yao)對大模(mo)型(xing)加速(su)計(ji)算系統開(kai)(kai)展多(duo)層次的性(xing)能(neng)(neng)(neng)(neng)評(ping)測和(he)軟硬件深(shen)度調(diao)(diao)優。《指(zhi)南(nan)》給出了(le)基礎(chu)性(xing)能(neng)(neng)(neng)(neng)、互連性(xing)能(neng)(neng)(neng)(neng)、模(mo)型(xing)性(xing)能(neng)(neng)(neng)(neng)測試的要(yao)點和(he)指(zhi)標,并指(zhi)出了(le)針對大模(mo)型(xing)訓練和(he)推理性(xing)能(neng)(neng)(neng)(neng)調(diao)(diao)優的要(yao)點,以確保開(kai)(kai)放加速(su)規范AI服(fu)務器能(neng)(neng)(neng)(neng)夠有(you)效完成當前主流大模(mo)型(xing)的創新應用支撐。

消息來源:浪潮信息
全球TMT
微信公眾號“全球TMT”發布全球互聯網、科技、媒體、通訊企業的經營動態、財報信息、企業并購消息。掃描二維碼,立即訂閱!
collection