亚洲在线日韩伦理片,96精品国产AⅤ一区二区,青鸟影视网,yy黄色频道,国内精品久久久精品AV电影院

深度評測 "算力猛獸"浪潮NF5468A5 GPU服務器

2022-07-11 17:41 11788

北京2022年7月11日 /美(mei)通社/ -- 近日,浪(lang)潮(chao)信息推出AI服(fu)務(wu)(wu)器(qi) NF5468A5"超值機型 限(xian)免試用"活動。浪(lang)潮(chao)NF5468A5是一款性能(neng)強大(da)、應用場景(jing)廣(guang)泛的GPU服(fu)務(wu)(wu)器(qi),硬件設計(ji)合(he)理(li),可最大(da)化發揮核心組件的性能(neng)優(you)勢,并通過分區(qu)散熱設計(ji)保(bao)障(zhang)服(fu)務(wu)(wu)器(qi)穩定運行,同時廣(guang)泛兼容主流(liu)加(jia)速卡,計(ji)算(suan)性能(neng)強大(da),以更靈活的計(ji)算(suan)架構最大(da)程度(du)地滿足用戶在圖像識別、自然語言處(chu)理(li)、語音識別等多(duo)場景(jing)應用需求,專業(ye)測評(ping)媒體將其比喻為"算(suan)力猛(meng)獸"。

本(ben)文(wen)將圍繞NF5468A5整體(ti)設計及性能(neng)測(ce)試(shi)進(jin)行深(shen)度測(ce)評解讀,展現HPL、內存帶寬、AI訓練(lian)、AI推理、視頻編解碼、HASH等應用(yong)(yong)場景的各類測(ce)試(shi)數據,如對該AI服(fu)務器(qi)感(gan)興趣可以申請(qing)參(can)加試(shi)用(yong)(yong)活動。


浪(lang)潮NF5468A5服(fu)務器(qi)

NF5468A5是浪潮推出的一款面向AI訓(xun)練(lian)和AI推理、視(shi)頻編解碼(ma)等(deng)多(duo)種應用場(chang)景的全能型GPU服務器,在4U空間(jian)內搭載2顆AMD EPYC處(chu)理器,支(zhi)持多(duo)達8張雙寬加速卡。浪潮官網顯示(shi),這款產品(pin)已經支(zhi)持NVIDIA、AMD、Intel、寒武紀、燧原(yuan)等(deng)多(duo)家(jia)業(ye)界主流AI加速卡。

本次拿到的樣(yang)機(ji)采用如(ru)下配置:


接下來,筆(bi)者(zhe)將從系統解析、性(xing)能測試這兩(liang)個方面對浪潮NF5468A5服務(wu)器(qi)進(jin)行(xing)測評。

1. NF5468A5系統解析

1.1 整體系統設計

浪潮NF5468A5 AI服務器(qi)采用(yong)了4U機(ji)架式(shi)機(ji)箱,高x寬x深為175mm x 478mm x 830mm。整體風(feng)格簡約、硬(ying)朗,不論做工、還是用(yong)料、細節,均彰顯出大(da)廠品(pin)質。

前面板(ban)(ban)沿(yan)用浪潮(chao)一貫穩(wen)重的(de)(de)黑(hei)色,六邊形(xing)的(de)(de)格柵結構(gou)由金(jin)屬制成,可以將風(feng)扇高速(su)旋轉產生(sheng)的(de)(de)湍流(liu)風(feng)切割成平穩(wen)的(de)(de)平流(liu)風(feng),從而更平穩(wen)的(de)(de)吹向服務器內部。前面板(ban)(ban)右上(shang)(shang)角(jiao),電源(yuan)鍵下方是ID、Reset按鍵和系統狀態指(zhi)示(shi)燈(deng),前面板(ban)(ban)左(zuo)上(shang)(shang)角(jiao)則是VGA、兩個USB 3.0接(jie)口和管(guan)理接(jie)口。前面版的(de)(de)豐富接(jie)口,充分考慮(lv)了運維(wei)人(ren)員(yuan)的(de)(de)工(gong)作場景(jing),十分便捷。


浪潮NF5468A5前視圖

從后窗來看,NF5468A5在4U空間內提(ti)供(gong)了8個全高(gao)全長(chang)雙寬PCIe x16的(de)物(wu)(wu)理(li)插(cha)槽(cao)(cao),支(zhi)持(chi)最新(xin)PCIe Gen4,雙向(xiang)通信帶寬高(gao)達64GB/s,相(xiang)比(bi)PCIe Gen3,功耗不變,但通信性能提(ti)升1倍。在此(ci)基礎上產品(pin)還(huan)提(ti)供(gong)了3個全高(gao)全長(chang)單寬x16物(wu)(wu)理(li)槽(cao)(cao)位,可(ke)(ke)支(zhi)持(chi)25G/100G/200G雙口光纖,或(huo)者千兆/萬(wan)兆RJ45網卡(ka)以及8/16端口12Gb/s RAID卡(ka),可(ke)(ke)滿足客戶對網絡(luo)及存儲的(de)要求(qiu)。同(tong)時(shi)可(ke)(ke)支(zhi)持(chi)1個OCP 3.0網卡(ka)專用插(cha)槽(cao)(cao),支(zhi)持(chi)熱(re)插(cha)拔,將(jiang)網卡(ka)更(geng)換時(shi)間從20分(fen)鐘縮短到1分(fen)鐘,能夠大幅(fu)提(ti)高(gao)運維(wei)效(xiao)率。

NF5468A5支持4個電源模(mo)組,可以提供1600W~3000W功(gong)率(lv)的80 PLUS鉑金電源模(mo)塊(kuai),效率(lv)高達(da)94%,可選3+1冗(rong)余或者2+2冗(rong)余,多種組合的冗(rong)余電源設計(ji),充(chong)分(fen)考慮(lv)了不同配置(zhi)AI服(fu)務器的負載情況,保(bao)障穩定性。


浪潮NF5468A5后視圖

整個服務器采用(yong)非常緊湊的布(bu)局設計,總共分成四(si)個功能(neng)區域,從前(qian)往后依次(ci)是:磁盤(pan)存儲(chu)區、系統散熱(re)區、處理(li)器+內存區、GPU+IO擴展區。


浪潮NF5468A5內(nei)部俯視(shi)圖

下(xia)面(mian)我(wo)們(men)先看下(xia)CPU和內存(cun)。這臺樣機搭(da)配(pei)了(le)2顆AMD EPYC 7543處理器(qi),核心(xin)數(shu)達到了(le)32核心(xin)64線(xian)程,基準主(zhu)頻(pin)2.8GHz,最(zui)大(da)加速時鐘(zhong)頻(pin)率3.7GHz,L3 Cache 256MB,功耗225W。另外,浪潮官網(wang)介紹NF5468A5可(ke)(ke)支(zhi)持2顆AMD基于"Zen3"微架(jia)構(gou)內核的(de)EPYC Milan-X處理器(qi),最(zui)高128個(ge)核心(xin)256線(xian)程、1536MB L3 Cache 以(yi)(yi)及18 GT/s XGMI互連(lian)鏈路(lu),CPU TDP最(zui)大(da)支(zhi)持280W。樣機配(pei)置(zhi)了(le)16根32G DDR4內存(cun),同時可(ke)(ke)以(yi)(yi)看到服(fu)務(wu)器(qi)主(zhu)板整(zheng)齊排布了(le)32個(ge)DDR4內存(cun)插(cha)槽,最(zui)大(da)容量(liang)可(ke)(ke)達8TB,內存(cun)總(zong)帶寬750GB/s,支(zhi)持RDIMM/LRDIMM等(deng)類(lei)型的(de)內存(cun)條。NF5468A5強(qiang)勁的(de)處理器(qi)性能、巨大(da)的(de)內存(cun)容量(liang)和帶寬,特別適合AI計算、云計算、HPC以(yi)(yi)及企業(ye)各(ge)類(lei)業(ye)務(wu)的(de)工作負載。


浪潮NF5468A5的CPU散熱器和內存條

筆者手上(shang)的(de)這臺NF5468A5,最吸(xi)引眼球的(de)是本次測試(shi)樣機(ji)搭配(pei)了8顆NVIDIA A100 40G加速(su)卡,從京東(dong)網(wang)上(shang)的(de)報價看,8張A100的(de)價格已經(jing)與一款中高端轎車(che)相(xiang)當(dang),這究竟是一款什(shen)么(me)樣的(de)AI服(fu)務器,筆者將帶大家一探究竟。

我們來重點看一下(xia)NF5468A5的(de)GPU模組。樣機搭(da)配(pei)了8張(zhang)NVIDIA A100 PCIE 40GB GPU加速卡(ka)(ka),由于每張(zhang)卡(ka)(ka)功耗高(gao)(gao)達250W,服務器也給GPU板(ban)卡(ka)(ka)配(pei)置(zhi)了單獨供電線,保證GPU卡(ka)(ka)的(de)穩(wen)定工(gong)作(zuo)。為(wei)了滿足(zu)PCIE卡(ka)(ka)的(de)高(gao)(gao)功率運行,我們看到NF5468A5在GPU板(ban)上專(zhuan)門設(she)計了4個用于大電流(liu)通流(liu)的(de)bus bar,據浪(lang)潮的(de)工(gong)程(cheng)師介紹,bus bar的(de)通流(liu)能力可(ke)以(yi)達到2880W,這對于各類PCIE加速卡(ka)(ka)的(de)支持是非常強勁的(de)。


浪潮NF5468A5支持8張NVIDIA A100 PCIE 40GB GPU

NF5468A5提供(gong)了(le)對豐(feng)富外插(cha)卡的(de)支持,針對A100這種(zhong)全高(gao)全長的(de)卡配(pei)置了(le)專用支架,搭配(pei)尾(wei)部鎖片進行固定(ding),這樣能增強(qiang)產品在運輸過程中震動(dong)、跌(die)落情況下的(de)可靠性(xing)。我們(men)翻開尾(wei)部鎖片,旋(xuan)轉藍色旋(xuan)鈕,就(jiu)能非(fei)常順(shun)利(li)的(de)取下GPU進行更換(huan),這種(zhong)針對PCIE卡免工具的(de)操作非(fei)常人性(xing)化。


1.2 系統散熱設計

從(cong)浪(lang)潮(chao)官網產(chan)品介紹中看到(dao)NF5468A5可(ke)(ke)以支持2顆(ke)280W CPU+8顆(ke)300W的(de)(de)GPU,在177mm的(de)(de)空(kong)間(jian)內浪(lang)潮(chao)究(jiu)竟是如(ru)何實(shi)現的(de)(de)?筆者找浪(lang)潮(chao)工程師拿到(dao)了(le)系(xi)統(tong)(tong)風(feng)(feng)(feng)(feng)流(liu)圖(tu),從(cong)中可(ke)(ke)以看出(chu),系(xi)統(tong)(tong)整體風(feng)(feng)(feng)(feng)道采用前(qian)進(jin)(jin)后(hou)(hou)出(chu)的(de)(de)方式,散(san)熱(re)風(feng)(feng)(feng)(feng)流(liu)主要從(cong)前(qian)面(mian)板的(de)(de)硬盤(pan)及下(xia)方開(kai)孔處進(jin)(jin)入(ru)系(xi)統(tong)(tong)。風(feng)(feng)(feng)(feng)流(liu)經(jing)系(xi)統(tong)(tong)風(feng)(feng)(feng)(feng)扇后(hou)(hou)通過(guo)導(dao)風(feng)(feng)(feng)(feng)罩的(de)(de)分(fen)(fen)配,一部分(fen)(fen)進(jin)(jin)入(ru)下(xia)層(ceng)前(qian)排CPU和內存(cun)通道,一部分(fen)(fen)繼續往(wang)后(hou)(hou)吹(chui);經(jing)過(guo)CPU和內存(cun)后(hou)(hou)的(de)(de)風(feng)(feng)(feng)(feng)及未(wei)被預熱(re)的(de)(de)風(feng)(feng)(feng)(feng)大部分(fen)(fen)流(liu)向后(hou)(hou)方上面(mian)3U空(kong)間(jian)的(de)(de)GPU,小(xiao)部分(fen)(fen)流(liu)向下(xia)面(mian)1U空(kong)間(jian);最(zui)后(hou)(hou)經(jing)后(hou)(hou)面(mian)板流(liu)出(chu)系(xi)統(tong)(tong)。如(ru)此巧妙(miao)的(de)(de)風(feng)(feng)(feng)(feng)道設(she)計和精準的(de)(de)風(feng)(feng)(feng)(feng)流(liu)控制,足見浪(lang)潮(chao)作為全(quan)球AI領導(dao)廠商深厚(hou)的(de)(de)設(she)計功底。


系統(tong)分離式(shi)風流設計

這款服務器將(jiang)整機柜(ju)產品中"風(feng)(feng)(feng)(feng)(feng)扇(shan)墻"的(de)設計理念搬到(dao)了(le)4U機箱中,"風(feng)(feng)(feng)(feng)(feng)扇(shan)墻"一共由6組(zu)可以單獨維護的(de)子風(feng)(feng)(feng)(feng)(feng)扇(shan)模組(zu)組(zu)成(cheng),風(feng)(feng)(feng)(feng)(feng)扇(shan)后部搭配了(le)流(liu)線型(xing)設計的(de)導(dao)風(feng)(feng)(feng)(feng)(feng)罩(zhao),覆蓋了(le)從(cong)風(feng)(feng)(feng)(feng)(feng)扇(shan)到(dao)GPU中間的(de)區(qu)域(yu)(yu),但整個導(dao)風(feng)(feng)(feng)(feng)(feng)罩(zhao)并沒有(you)完全擋住風(feng)(feng)(feng)(feng)(feng)扇(shan)的(de)出(chu)風(feng)(feng)(feng)(feng)(feng)區(qu)域(yu)(yu),結合上面系統(tong)風(feng)(feng)(feng)(feng)(feng)流(liu)圖也(ye)證明是為實現CPU和GPU獨立風(feng)(feng)(feng)(feng)(feng)道的(de)引流(liu)設計,避免(mian)風(feng)(feng)(feng)(feng)(feng)流(liu)的(de)串擾,無論多"強悍"的(de)CPU和GPU都可以馴服。


NF5468A5中置風扇墻和導(dao)流設計

1.3 架構設計

筆者查找了海(hai)外網站相關浪潮產(chan)品的(de)介(jie)紹(shao)資(zi)料,找到一(yi)張產(chan)品的(de)拓撲圖,發現(xian)有別于(yu)傳統CPU-PCIE Switch-GPU的(de)設計,浪潮產(chan)品采用CPU-GPU直(zhi)連方(fang)式。跟浪潮工程師確認,送測的(de)NF5468A5也采用類似設計。工程師介(jie)紹(shao),由于(yu)省去了PCIE Switch,2顆(ke)CPU與(yu)GPU的(de)通(tong)訊(xun)延(yan)遲能降(jiang)低200~300ns,同時GPU到CPU的(de)通(tong)信(xin)(xin)帶(dai)寬(kuan)(kuan)可以達到256GB/s,較GPU通(tong)過PCIE Switch只有1條與(yu)CPU PCIE通(tong)路(lu)比,帶(dai)寬(kuan)(kuan)提(ti)升4倍,這種極致的(de)互聯架(jia)構設計,有助于(yu)提(ti)升GPU與(yu)CPU間數據通(tong)信(xin)(xin)的(de)帶(dai)寬(kuan)(kuan),有效降(jiang)低數據的(de)處理延(yan)遲。


2. NF5468A5性能測評

2.1 HPL測試

樣機搭配2顆AMD EPYC 7543處(chu)理器(qi),這款處(chu)理器(qi)是32 核(he) 64 線程,基(ji)準主頻(pin)2.8GHz,L3 Cache 256MB,最大加速(su)時(shi)鐘頻(pin)率最高(gao)可達3.7GHz,功(gong)耗225W。為了(le)能(neng)夠了(le)解CPU實際性(xing)能(neng),下面將采用HPL基(ji)準軟件(jian)進行測(ce)試。

在計(ji)算(suan)(suan)機(ji)基(ji)準(zhun)測試軟件(jian)中,HPL是應用(yong)最廣泛的基(ji)準(zhun)測試程序之一。通過使用(yong)高斯消元法對稠密線性(xing)方程組(zu)進行求(qiu)解,HPL可以準(zhun)確(que)測試系統浮點計(ji)算(suan)(suan)指標。在每年全球超級計(ji)算(suan)(suan)機(ji)排(pai)名TOP500中,HPL測試性(xing)能是唯一的評價標準(zhun)。

由于筆者(zhe)拿(na)到的設備是一臺未預裝任何軟件的裸金屬服務器(qi),為了進行相(xiang)關(guan)測試,首先在上面(mian)安裝了Ubuntu20.04操作系統。

然后用HPL軟件測(ce)(ce)試了系統的浮點運行能力。通過如下命令,將測(ce)(ce)試進程(cheng)和CCD進行綁定(ding)。

mpi_options="--mca mpi_leave_pinned 1 --bind-to none --report-bindings --mca btl self,vader"
mpi_options="$mpi_options --map-by ppr:1:l3cache -x OMP_NUM_THREADS=4 -x OMP_PROC_BIND=TRUE -x OMP_PLACES=cores"
mpirun $mpi_options -app ./appfile_ccx

在運(yun)行之前,還需要設置核心(xin)運(yun)行在最(zui)高頻率,清除(chu)系統緩存,并開啟大(da)頁內(nei)存等(deng)設置,保證獲得當(dang)前平臺(tai)最(zui)高性(xing)能。

echo 3 > /proc/sys/vm/drop_caches
echo 1 > /proc/sys/vm/compact_memory
echo 0 > /proc/sys/kernel/numa_balancing
echo 
always > /sys/kernel/mm/transparent_hugepage/enabled
echo 
always > /sys/kernel/mm/transparent_hugepage/defrag

sudo cpupower frequency-set -g performance

最(zui)終測試浮點計(ji)算(suan)速(su)度為2.69 TFLOPS,根據當前AMD平(ping)臺理(li)論浮點計(ji)算(suan)速(su)度,計(ji)算(suan)效率達到93.74%。


處理器浮點計算(suan)測試結果

2.2 內存帶寬測試

我們(men)用業界主流(liu)的測試軟件STREAM對(dui)NF5468A5的內(nei)存帶寬(kuan)進(jin)行了(le)測試,測試參數(shu)如下:

# Thread Binding Options for AMD EPYC 7742/7763 Processor

$ export GOMP_CPU_AFFINITY=0-64:8

$ export OMP_NUM_THREADS=8

在運行前,清除系(xi)統緩存(cun)并且開啟(qi)透明大頁內存(cun)設置(zhi)等,設置(zhi)參數如(ru)下:

$ echo madvise | tee /sys/kernel/mm/transparent_hugepage/enabled

$ echo madvise | tee /sys/kernel/mm/transparent_hugepage/defrag

$ echo 3 > /proc/sys/vm/drop_caches

$ echo 1 > /proc/sys/kernel/numa_balancing

通過以上編譯和(he)運行(xing)過程中(zhong)優化,STREAM測試(shi)結(jie)果(guo)為373 GB/s,根據當(dang)前(qian)平臺理(li)論內存(cun)帶寬409.6 GB/s,實測內存(cun)帶寬效率(lv)(lv)達到(dao)91.1%。應(ying)該說,這個效率(lv)(lv)非常高了。


內存帶(dai)寬測試結果

2.3 訓練性能測試

下面我們來測試(shi)NF5468A5的(de)AI訓練性(xing)能(neng)。樣機配置8張NVIDIA A100 PCIE 40GB GPU,這款GPU采用Ampere架構,基于7nm制造(zao)工藝,包含了超過540億(yi)個晶體管,擁有6912個CUDA核(he)心,搭載(zai)了40GB HBM2內存(cun),具備1.6TB/s的(de)內存(cun)帶寬,FP64性(xing)能(neng)9.7 TFLOPS,FP32性(xing)能(neng)19.5 TFLOPS,FP16性(xing)能(neng)312 TFLOPS。

筆者從github網站上的(de)(de)(de)公共(gong)倉(cang)庫中(zhong)下載了MLPerf Training V1.0代(dai)碼,并使用這套(tao)代(dai)碼按照以下測(ce)(ce)試(shi)步驟在(zai)(zai)NF5468A5上訓(xun)練ResNet50模(mo)型(xing)。MLPerf是一(yi)套(tao)衡量(liang)機器學習系統性(xing)能的(de)(de)(de)權威標(biao)準(zhun),將(jiang)在(zai)(zai)標(biao)準(zhun)目(mu)標(biao)下訓(xun)練或推(tui)理機器學習模(mo)型(xing)的(de)(de)(de)時(shi)間,作(zuo)為一(yi)套(tao)系統性(xing)能的(de)(de)(de)測(ce)(ce)量(liang)標(biao)準(zhun)。MLPerf由圖(tu)靈獎(jiang)得(de)主(zhu)大衛(wei)·帕特(te)森(David?Patterson)聯合谷歌、斯坦福、哈佛大學等單位共(gong)同成立(li),是國(guo)際上最有影響力的(de)(de)(de)人工智能基(ji)準(zhun)測(ce)(ce)試(shi)之一(yi)。ResNet50是計(ji)算機視覺(jue)領域中(zhong)最經(jing)典的(de)(de)(de)圖(tu)像分(fen)類模(mo)型(xing),廣泛應(ying)用于(yu)圖(tu)像識別(bie)、自(zi)動駕駛等場(chang)景。

MLPerf代碼(ma)提供(gong)了容器配置文(wen)件,我們可以(yi)很(hen)方便的通(tong)過配置文(wen)件在自己的服務器設(she)備上創建鏡(jing)像環境,鏡(jing)像中(zhong)包含cuda、cudnn、nccl、mxnet等上層組(zu)件。但(dan)是(shi)在運行容器之前,還需(xu)要在Host OS中(zhong)安裝NVIDIA GPU Driver、docker、nvidia-docker這些(xie)基礎軟件。

首先,筆者參考 教程在Ubuntu20.04操作系統中下載并安裝了(le)R470.82.01版本的驅動(dong);然后按(an)照 教程安裝docker和(he)nvidia-docker。

通過以下命令構(gou)建(jian)容器鏡像:

$ cd  ~/training_results_v1.0/NVIDIA/benchmarks/resnet/implementations /mxnet

$ docker build -t mlperf1.0-nvidia:image_classification .

在測(ce)試(shi)之前(qian),通過在nf5468a5_cxx.sh文中添加(jia)以下內容綁定核心與進程,最大化的(de)(de)利用系統中的(de)(de)計算資源,達到良(liang)好(hao)的(de)(de)負載均衡,保證(zheng)獲得最優的(de)(de)性能結果。

bind_cpu_cores=([0]="48-63,176-191" [1]="32-47,160-175" [2]="16-31,144-159" [3]="0-15,128-143"

[4]="112-127,240-254" [5]="96-111,224-239" [6]="80-95,208-223" [7]="64-79,192-207")

bind_mem=([0]="3" [1]="2" [2]="1" [3]="0"

[4]="7" [5]="6" [6]="5" [7]="4")

測試環境準(zhun)備完成,執行以(yi)下指(zhi)令開始測試:

激活環境變(bian)量:

$ source config_NF5468A5.sh

$ export CONT=mlperf1.0-nvidia:image_classification 

$ export DATADIR=/home/data/mxnet_imagenet/ 

$ export LOGDIR=/home/resnet50/

執行(xing)測試腳本(ben):

$ ./run_with_docker.sh

 


測(ce)試結果(guo)為(wei)21486 images/sec,也就是35分(fen)(fen)鐘即可完成(cheng)ResNet50模型的(de)(de)訓練。參考最(zui)近幾(ji)期MLPerf訓練榜單,搭載8張NVIDIA A100 40G GPU卡(ka)的(de)(de)服務器(qi)的(de)(de)最(zui)好(hao)成(cheng)績是36.2分(fen)(fen)鐘。可以(yi)說,在(zai)同(tong)等GPU配置的(de)(de)服務器(qi)中,浪(lang)潮NF5468A5的(de)(de)ResNet50訓練性能是最(zui)好(hao)的(de)(de)。

2.4 推理性能測試

筆者也測試在(zai)目前推理場景(jing)中熱度最高的(de)(de)NVIDIA Tesla T4,這款精致的(de)(de)GPU卡(ka)只有(you)75W,采(cai)用(yong)Turing架構, 在(zai)半(ban)高卡(ka)的(de)(de)尺(chi)寸內集成320個Turing Tensor Core和2560個Turing CUDA Core,配備(bei)16GB GDDR6,支(zhi)持FP32/FP16/INT8/INT4等(deng)多種精度的(de)(de)運(yun)算,FP16的(de)(de)峰(feng)值性能為(wei)65T,INT8為(wei)130T,INT4為(wei)260T。 


NVIDIA Tesla T4 GPU

推理(li)性能測(ce)(ce)試(shi)同樣(yang)使(shi)用了MLPerf測(ce)(ce)試(shi)工具,本次測(ce)(ce)試(shi)是基于(yu)MLPerf Inference V1.0.復用了訓練測(ce)(ce)試(shi)時使(shi)用的OS、docker、nvidia-docker等基礎軟件環境(jing)。

我們在NF5468A5搭(da)載(zai)1張NVIDIA T4 GPU,使用github網(wang)站上的公開代碼(ma),按照如下步驟測試了(le)ResNet50模型的推理性能:

同訓練時一樣(yang),首(shou)先要(yao)構建容器(qi)鏡像:

# unzip mlperf-inference-release.zip

# cd /mlperf-inference-release/closed/Inspur

# export MLPERF_SCRATCH_PATH=/home/inspur/data/data_mlperf/

# make prebuild

(備注:prebuild后會自動進入容器實例)

然后執行以(yi)下指令開始測試:

sudo CUDA_VISIBLE_DEVICES=0 make run RUN_ARGS="--benchmark=resnet50 --scenarios=Offline --config_ver=default --test_mode=PerformanceOnly --fast"

在圖像(xiang)分類應用(yong)(yong)場景中,使用(yong)(yong)ImageNet數據(ju)集,ResNet50測試(shi)結(jie)果是每(mei)(mei)秒處理(li)(li)5671.9 張(zhang)圖片(pian)。我們了解到NVIDIA T4的ResNet50推理(li)(li)性能為每(mei)(mei)秒5000張(zhang)圖片(pian)左右(you)。應該說,在NF5468A5上測得的T4推理(li)(li)性能非常好了。


ResNet50推(tui)理測試結果

筆(bi)者也拿到了(le)寒(han)武(wu)紀MLU270-S4推理(li)加速卡(ka)。MLU270-S4采用TSMC 16nm工藝制造(zao),集成16GB DDR4 內存,支持(chi)ECC,同時兼容INT4和INT16運(yun)算,理(li)論峰(feng)值分(fen)別達(da)到256TOPS和64TOPS。

我們(men)發現(xian)NF5468A5對寒武(wu)紀(ji)的(de)板卡也(ye)做了很(hen)好的(de)兼容性適配,BMC可以顯示MLU270-S4的(de)資產信息(xi),風扇轉(zhuan)速也(ye)根據MLU270-S4的(de)功耗(hao)進行了調(diao)整,相比A100,能夠明(ming)顯感覺(jue)到(dao)風扇轉(zhuan)速主動降低了。不(bu)得不(bu)說,浪潮服(fu)務器的(de)散熱控制做得很(hen)精細。


寒(han)武紀MLU270-S4加速卡

我們在NF5468A5上插了(le)1張(zhang)MLU270-S4,測(ce)試了(le)Caffe框架(jia)下(xia)的ResNet18、PyTorch框架(jia)下(xia)的GoogleNet以及TensorFlow下(xia)的ResNet101v1.5、VGG16和InceptionV3這幾個(ge)模型的推理(li)性能,在使用int8精(jing)度時,計算性能分別(bie)為每(mei)秒7440、5800、2400、1400和1000張(zhang)。

筆者分(fen)析,浪潮NF5468A5在訓練和推理(li)(li)(li)測試中能(neng)取得這么(me)好的(de)(de)成績主(zhu)要有(you)三(san)個(ge)原因(yin):第(di)一,ResNet50模型從算法上還是需要CPU進(jin)行一定的(de)(de)圖像(xiang)預(yu)取和處理(li)(li)(li)操作,本次送測的(de)(de)AMD 7543具備32核心2.8GHz主(zhu)頻,有(you)助于(yu)圖像(xiang)在CPU端的(de)(de)預(yu)處理(li)(li)(li)工作;第(di)二,NF5468A5采用CPU和GPU直連設(she)計,有(you)效降低數(shu)據的(de)(de)處理(li)(li)(li)延遲(chi),同時(shi)單個(ge)CPU與GPU通(tong)信帶寬高達128GB/s;第(di)三(san),NF5468A5可以支持NVME SSD作為(wei)數(shu)據盤(pan),通(tong)過將多顆NVME SDD數(shu)據盤(pan)組(zu)建RAID,可以極(ji)大(da)的(de)(de)提升(sheng)磁(ci)盤(pan)IO能(neng)力,在AI這種需要頻繁讀取數(shu)據的(de)(de)場(chang)景中,能(neng)夠非常(chang)有(you)效的(de)(de)避免因(yin)為(wei)IO短板帶來(lai)的(de)(de)性能(neng)瓶頸。

2.5 視頻編解碼性能測試

筆者在NF5468A5服務器上也評(ping)測了浪潮自研的M10A加速卡。

據浪潮官網(wang)介紹,M10A是(shi)一款(kuan)面向AI場景(jing)優化設計的VPU(Video Processing Unit), VPU是(shi)一種全(quan)新的視(shi)頻(pin)處理(li)核心引擎,將(jiang)視(shi)頻(pin)處理(li)功能(neng)做成ASIC芯(xin)片,具有硬(ying)(ying)件編(bian)碼(ma)(ma)、硬(ying)(ying)件解碼(ma)(ma)、硬(ying)(ying)件轉碼(ma)(ma)等視(shi)頻(pin)加速功能(neng),可以減少(shao)服務器在視(shi)頻(pin)處理(li)業(ye)務上的計算性能(neng)消耗和(he)降低視(shi)頻(pin)傳輸對網(wang)絡(luo)帶寬的需求。

M10A在(zai)8W功耗下(xia)可以(yi)提供16路1080P30視(shi)(shi)頻(pin)的(de)加(jia)速能力(li),相當于(yu)每路1080P視(shi)(shi)頻(pin)加(jia)速僅需(xu)0.5W。M10A針對H.265視(shi)(shi)頻(pin)格式壓(ya)縮算法進行了特殊優化,實測數據表明M10A的(de)H.265編碼(ma)效果可以(yi)使得網絡帶寬(kuan)利用率翻(fan)倍,同時計算CPU負荷(he)最低可降至2%,適用于(yu)直播、短視(shi)(shi)頻(pin)、云游戲(xi)、視(shi)(shi)頻(pin)會議等場景。


浪潮M10加速(su)卡

在FFMPEG視頻框架下(xia),我(wo)們直接用軟件SDK中的demo腳本,測(ce)試(shi)了M10A在不同(tong)視頻分辨率(lv)下(xia)的性能數(shu)據(ju),如(ru)下(xia)是(shi)16路1080P全高清(qing)視頻實時轉碼的性能測(ce)試(shi)情況:


在(zai)測試的過程中(zhong),我們發現M10A VPU芯片內部是"多核"結構(gou),這將進一(yi)步(bu)降低視(shi)頻(pin)處理延(yan)遲,提高多路視(shi)頻(pin)轉碼時(shi)的性(xing)能穩定性(xing)。

從測試結果看到(dao),M10A進行(xing)16路(lu)1080P全高(gao)清視(shi)頻轉碼(ma)時,每路(lu)視(shi)頻轉碼(ma)性能(neng)都能(neng)達到(dao)33fps,達到(dao)了浪潮(chao)官方宣(xuan)傳(chuan)的性能(neng)。


M10A視頻轉碼性(xing)能測(ce)試結果

另(ling)外,我們還測試了4K超高清和720P高清分(fen)辨率下(xia)的(de)M10A的(de)性能數據,分(fen)別可(ke)以達到4K 120fps和720P 960fps,解(jie)碼(ma)(ma)、編碼(ma)(ma)和轉(zhuan)碼(ma)(ma)的(de)性能都是一致的(de)。

在我們跟視頻(pin)行業(ye)技術大(da)咖的(de)交流中(zhong)了解到,一張M10A的(de)視頻(pin)處理能力相當于一臺雙路服務器的(de)性(xing)(xing)能,M10A具有高(gao)性(xing)(xing)能、低功耗的(de)優(you)點,這對視頻(pin)行業(ye)來(lai)說(shuo)是一個非(fei)常高(gao)性(xing)(xing)價(jia)比的(de)解決方(fang)案。

2.6 HASH性能測試

除了前面講到的幾張加速卡(ka),筆(bi)者也嘗試了其他板卡(ka),比如(ru)主流的消費級顯(xian)卡(ka)RTX3090等,發現NF5468A5都做了很(hen)好的適(shi)配(pei)工作。

RTX3090采用第2代(dai)NVIDIA RTX架構-NVIDIA Ampere架構,采用8納米工藝(yi),擁有10496個CUDA核心,搭載了24 GB GDDR6X內存,384bit位寬。


RTX3090顯(xian)卡

下面(mian),我們來(lai)看(kan)看(kan)浪潮5468A5搭(da)載(zai)RTX3090顯卡(ka)在區塊(kuai)鏈場(chang)景(jing)的(de)性能。基于(yu)T-Rex這個知名(ming)的(de)應(ying)用軟(ruan)件(jian),筆者對業界主流(liu)的(de)哈(ha)希算法(fa)(fa)(fa)進行了性能測(ce)試(shi)。T-Rex不(bu)僅(jin)支持(chi)區塊(kuai)鏈場(chang)景(jing)中(zhong)最常用的(de)ETHASH算法(fa)(fa)(fa),也支持(chi)其他(ta)諸(zhu)如BLAKE3、MTP等哈(ha)希算法(fa)(fa)(fa)。


ETHASH算法性能測(ce)試過程

針對(dui)每種HASH算法,我們使(shi)用了(le)t-rex軟(ruan)件(jian)的(de)benchmark模型,在單個(ge)3090顯卡上進行(xing)測(ce)試,每次測(ce)試持續10分鐘時間,并記錄了(le)最終的(de)性(xing)能(neng)數據,如下(xia)表所示。

浪潮(chao)NF5468A5+單卡(ka)RTX3090 HASH算法測試(shi)結果(guo)


其中ETHASH算(suan)法的單卡(ka)性能達到了108MH/s。

這在(zai)(zai)很大程度(du)上得益于NF5468A5優秀的(de)散熱(re)(re)設計(ji)。RTX3090的(de)功耗高(gao)達350W,在(zai)(zai)區塊鏈場景,顯卡通常是7*24小時(shi)運行(xing),因此(ci)對散熱(re)(re)的(de)要求非(fei)常高(gao)。筆者監控了(le)整個測(ce)試過程中的(de)GPU功耗和溫度(du)情(qing)況,發現在(zai)(zai)長達半天的(de)測(ce)試過程中,雖(sui)然(ran)GPU功耗長期維(wei)(wei)持(chi)在(zai)(zai)330~340W之間,但是GPU的(de)溫度(du)一直(zhi)維(wei)(wei)持(chi)在(zai)(zai)60℃左右(you),甚至在(zai)(zai)多(duo)卡同時(shi)運行(xing)時(shi),GPU的(de)溫度(du)也能保持(chi)在(zai)(zai)60℃左右(you),可以看出(chu)NF5468A5的(de)散熱(re)(re)設計(ji)做得相當不錯。

3. NF5468A5服務器測評總結

通過對產(chan)品外觀(guan)和(he)內部(bu)設計(ji)的評測(ce),我(wo)們(men)看到,浪(lang)潮NF5468A5在(zai)產(chan)品設計(ji)上,存儲、計(ji)算(suan)、風扇、GPU擴展等各模塊簡(jian)潔明(ming)朗,尤其是(shi)巧妙的分區(qu)散熱(re)設計(ji)有效實(shi)現(xian)CPU與(yu)GPU模組的分流,豐富(fu)的存儲+IO擴展性,同時(shi)人性化的設計(ji)以扎實(shi)的做工,也(ye)彰(zhang)顯出(chu)浪(lang)潮對產(chan)品細節的嚴謹和(he)大廠雄厚的設計(ji)實(shi)力。

在整體實際性(xing)能(neng)的(de)綜(zong)合(he)測(ce)試,得益(yi)于浪潮高效(xiao)的(de)產品(pin)架(jia)構,最大發揮CPU與(yu)GPU之間的(de)通(tong)訊效(xiao)能(neng),處(chu)理器計算效(xiao)率達到93.74%,實測(ce)內(nei)存帶寬373 GB/s,搭(da)配8張(zhang)A100訓練ResNet50模型(xing)得到每秒處(chu)理21486張(zhang)圖片的(de)驚人算力(li),在ImageNet數據(ju)集下進行ResNet50推理測(ce)試展現超出(chu)T4標稱13%的(de)圖片處(chu)理能(neng)力(li),這臺算力(li)猛獸全方位的(de)表現,相信給(gei)筆者和大家都留下了深刻的(de)印象(xiang)。

此外,ETHASH算法單卡性能(neng)突破100MH/s;很好地支持寒武紀國產推理(li)(li)卡,輕松實(shi)現(xian)每秒(miao)處理(li)(li)圖(tu)片超7000張;搭(da)載視(shi)頻(pin)轉(zhuan)碼卡M10A展(zhan)示(shi)了480fps 1080P視(shi)頻(pin)轉(zhuan)碼性能(neng)。浪(lang)潮(chao)NF5468A5還有(you)很多意想不到的潛能(neng),筆(bi)者期待(dai)進一步的發(fa)掘,給大(da)家帶來更精彩(cai)的評測。

消息來源:浪潮信息
全球TMT
微信公眾號“全球TMT”發布全球互聯網、科技、媒體、通訊企業的經營動態、財報信息、企業并購消息。掃描二維碼,立即訂閱!
collection