北京2020年10月29日 /美通社/ -- ASC世界大學生超算競賽是一場怎樣的比賽?對于擁有4年參賽經歷的廖秋承來說,ASC不僅是比賽,更是改變人生的契機。非計算機專業出身的他因為ASC接觸超算,熱愛超算,從隊員成長為指導老師,更選擇將超算作為自己的終生事業。在今年初的ASC20啟動會上,廖老師作為指導老師代表發言,講述了他對ASC超算競賽的感悟和體會。
以下是廖秋承老師的演講實錄。
各位(wei)(wei)專家,各位(wei)(wei)老師(shi),各位(wei)(wei)媒體朋友大家好。
我是上海交通大學代表隊的指導老師廖秋承。上海交通大學從2013年開始參加ASC,至今為止參加了七屆比賽,共獲得一個冠軍,一個亞軍,一個e Prize和4個應用創新獎。2020年是我個人第5年參加比賽,從一名隊員到一名指導老師,中間走過的路程激動人心又坎坷曲折。交通大學2013年建成國內高(gao)校第一(yi)臺超級計算機π1.0,今年建成了π2.0,這個過程中無數科研成果從這兩臺超級計算機上誕生。包括中國(guo)第一個全國性的兒童早期白血病數據庫、目前世界(jie)上最大(da)規模的4.3萬(wan)(wan)億個粒(li)子(zi)N體問題模擬、比串行版本加速(su)1.8萬(wan)(wan)倍的BTE算法等,很多重要的成果都有ASC競賽隊員(yuan)的參與。
種下計算的種子
ASC不僅是讓(rang)大學(xue)生參加超(chao)算(suan)(suan)比(bi)(bi)賽(sai)、深刻了解超(chao)算(suan)(suan)的(de)(de)(de)(de)平臺,更為(wei)高(gao)校提(ti)供了人(ren)(ren)才培養機制,讓(rang)高(gao)校從(cong)中獲取(qu)高(gao)性(xing)能計(ji)算(suan)(suan)專(zhuan)業(ye)人(ren)(ren)才。我時常(chang)跟學(xue)生打(da)比(bi)(bi)方,如(ru)果說戈登(deng)·貝爾(er)獎和(he)Top500是超(chao)算(suan)(suan)屆(jie)的(de)(de)(de)(de)達喀爾(er)拉力(li)賽(sai)和(he)F1比(bi)(bi)賽(sai),ASC就是超(chao)算(suan)(suan)界(jie)的(de)(de)(de)(de)卡(ka)丁(ding)(ding)車(che)(che)競(jing)賽(sai)。一(yi)個車(che)(che)手想成長為(wei)F1賽(sai)車(che)(che)手,他從(cong)非(fei)(fei)常(chang)小(xiao)的(de)(de)(de)(de)時候就要接(jie)受(shou)卡(ka)丁(ding)(ding)車(che)(che)專(zhuan)業(ye)訓(xun)練,連續十幾(ji)年的(de)(de)(de)(de)時間里一(yi)直接(jie)受(shou)各種(zhong)各樣的(de)(de)(de)(de)賽(sai)車(che)(che)訓(xun)練知識、引(yin)擎的(de)(de)(de)(de)知識,學(xue)習如(ru)何掌控重力(li)、牽(qian)引(yin)力(li),輪胎管理和(he)底盤管理等(deng)等(deng)。超(chao)算(suan)(suan)競(jing)賽(sai)就像卡(ka)丁(ding)(ding)車(che)(che)競(jing)賽(sai),教會(hui)學(xue)生如(ru)何管理一(yi)個復雜系(xi)統(tong),從(cong)芯片(pian)微架構體系(xi)結(jie)(jie)構,到(dao)芯片(pian)間的(de)(de)(de)(de)互(hu)聯,節點的(de)(de)(de)(de)互(hu)聯,到(dao)操作系(xi)統(tong),調優到(dao)建模。從(cong)來沒有(you)一(yi)個比(bi)(bi)賽(sai)像ASC比(bi)(bi)賽(sai)這樣,把所有(you)方面(mian)全(quan)部結(jie)(jie)合在一(yi)起,這也給學(xue)生帶來非(fei)(fei)常(chang)大的(de)(de)(de)(de)挑戰。
根據我個(ge)(ge)(ge)人統計,每年可能(neng)有超(chao)(chao)過40名(ming)本科生(sheng)在(zai)我們實驗(yan)室學習,但(dan)最后(hou)只(zhi)有5個(ge)(ge)(ge)人的(de)名(ming)字(zi)出現在(zai)ASC的(de)獎狀上,這(zhe)中間的(de)淘(tao)汰機制非常殘酷,只(zhi)有在(zai)這(zhe)樣殘酷的(de)條件下才有可能(neng)得到(dao)最優秀的(de)學生(sheng)。超(chao)(chao)算競賽是(shi)一(yi)粒種(zhong)子,給(gei)大學生(sheng)種(zhong)下了計算的(de)種(zhong)子,就像原(yuan)始(shi)人拿到(dao)的(de)第一(yi)個(ge)(ge)(ge)工具一(yi)樣,原(yuan)始(shi)人拿到(dao)第一(yi)個(ge)(ge)(ge)手動工具之后(hou)開始(shi)開天辟地,而我們拿到(dao)算力以(yi)后(hou)開始(shi)改變世界,讓我們的(de)生(sheng)活變得更加美(mei)好(hao)。
讓學生發揮最大創造力
ASC不僅是播(bo)撒種子的(de)(de)(de)(de)(de)平臺(tai)還是創新的(de)(de)(de)(de)(de)平臺(tai),上海交通大學(xue)代表隊在這幾年比賽(sai)中(zhong)干過瘋狂的(de)(de)(de)(de)(de)事情(qing)。2016年為DNN模型創建了(le)(le)18層(ceng)的(de)(de)(de)(de)(de)令牌(pai)環,達(da)到了(le)(le)決(jue)賽(sai)中(zhong)苛刻的(de)(de)(de)(de)(de)精度(du)和速度(du)要求。2017年我們第(di)一(yi)(yi)次(ci)在PCIE SSD上使用了(le)(le)并行(xing)文件系(xi)統BeeGFS。2018年我們打(da)磨了(le)(le)散熱(re)器(qi),更(geng)換了(le)(le)高(gao)性能的(de)(de)(de)(de)(de)硅脂,改(gai)變服(fu)務(wu)器(qi)的(de)(de)(de)(de)(de)散熱(re)策(ce)略,使得我們在南(nan)昌大學(xue)酷熱(re)的(de)(de)(de)(de)(de)場(chang)地還能保(bao)持服(fu)務(wu)器(qi)的(de)(de)(de)(de)(de)正常運行(xing)。2019年我們第(di)一(yi)(yi)次(ci)在每一(yi)(yi)臺(tai)服(fu)務(wu)器(qi)節點上用了(le)(le)兩塊Omni-Path 100G的(de)(de)(de)(de)(de)網卡(ka),從(cong)而實現(xian)了(le)(le)全(quan)場(chang)最快的(de)(de)(de)(de)(de)CESM模擬,當然因為一(yi)(yi)些原(yuan)因我們的(de)(de)(de)(de)(de)CESM并沒有拿到獎。
所以(yi)大家(jia)可(ke)以(yi)看到,ASC不(bu)僅是(shi)一(yi)個(ge)(ge)播撒種子的平臺(tai),還(huan)是(shi)一(yi)個(ge)(ge)讓學生發(fa)揮他們(men)最大創造力的平臺(tai),你有(you)非常(chang)多在(zai)正式(shi)生產(chan)集(ji)群(qun)上(shang)無(wu)法(fa)用(yong)的技能技巧(qiao)和(he)奇思妙(miao)想。雖然在(zai)ASC的賽(sai)場上(shang),這(zhe)些技巧(qiao)并不(bu)會扭轉(zhuan)乾坤,甚至根據(ju)我的經驗,它們(men)大部分都失敗了,但是(shi)最后(hou)這(zhe)些技巧(qiao)越來越成(cheng)熟(shu)后(hou),卻有(you)可(ke)能真(zhen)正用(yong)在(zai)生產(chan)環境和(he)高校(xiao)的科(ke)研中。2019年(nian)π2.0幫(bang)助上(shang)海(hai)交通(tong)大學一(yi)位(wei)老師進(jin)行了北冰(bing)洋(yang)洋(yang)面(mian)和(he)洋(yang)面(mian)下的氣候模擬(ni),用(yong)的正是(shi)CESM的模型(xing),他經過(guo)我們(men)的競(jing)賽(sai)隊員幫(bang)助,在(zai)π2.0集(ji)群(qun)上(shang)非常(chang)高效(xiao)地(di)完(wan)成(cheng)之前(qian)無(wu)法(fa)運行起來的模擬(ni)。
今年我們第一(yi)(yi)次以超算工程(cheng)師和學科主要科學家合作的(de)模式(shi),從零(ling)開始研發一(yi)(yi)個內燃機摩(mo)(mo)擦學模擬程(cheng)序,在研發成功后,這將是國(guo)際上摩(mo)(mo)擦學領域第一(yi)(yi)個二維(wei)滑(hua)動(dong)平面進行多尺度摩(mo)(mo)擦特性(xing)研究(jiu)的(de)程(cheng)序。大家可以看(kan)到(dao),ASC比賽(sai)不僅僅是讓學生玩得爽的(de)比賽(sai),還讓算力(li)應用到(dao)日常(chang)科研中(zhong),讓高校(xiao)和各領域學科的(de)科學家都從中(zhong)受益。
建立超算交流平臺
更重要的,ASC為我們建立一個交流的平臺,我記得去年我去SC,賽事主席Rebecca Hartman-Baker給我們說的第一句話是,你們這16個隊伍里有15個隊伍會輸。仔細想想確實是這樣,只有一個隊伍會贏,我們為什么還要參加這個比賽?我說一個真實的故事,有一個大學是ASC的參賽代表隊,埃爾朗根紐倫堡大學,這個大學大家可能沒有聽說過,但是負責這個大學代表隊的實驗室兩位教授Gerhard Wellein和Gerog Hager,是高性能計算和芯片體系結構性能模型ECM的創始人,也是非常著名的高性能計算著作《Introduction to High Performance Computing for Scientists and Engineers》的作者,正是通過這個比賽,我們(men)(men)和他(ta)們(men)(men)有了很多的學術交流(liu)。
今年我們會看到ETH,非常著名的老牌大學來到中國,HPC領域著名的Torsten Hoefler教授就在他們的團隊里,他在去年SC拿到(dao)了戈登(deng)貝爾獎,也拿到(dao)了Best Paper,如果他們今(jin)年能來到(dao)中國,希望我們很多代表隊(dui)有機會和(he)這樣一位大師能夠面對面的交流。
綜合以上(shang),我(wo)想說(shuo)ASC不僅僅給(gei)我(wo)們帶來無(wu)(wu)數的(de)(de)(de)榮譽,無(wu)(wu)數的(de)(de)(de)歷(li)練,無(wu)(wu)數的(de)(de)(de)精(jing)彩,還給(gei)我(wo)們整(zheng)個(ge)高性能計算(suan)(suan)的(de)(de)(de)生態圈注入了(le)新鮮的(de)(de)(de)血(xue)液。今年(nian)(nian)的(de)(de)(de)題目里(li)有(you)一個(ge)題“QuEST”,使我(wo)想起了(le)13年(nian)(nian)的(de)(de)(de)同學,他(ta)是通過HPC比(bi)賽(sai)了(le)解到(dao)(dao)HPC的(de)(de)(de)相(xiang)關知識,目前在從(cong)事量(liang)子(zi)計算(suan)(suan)的(de)(de)(de)研究。有(you)無(wu)(wu)數的(de)(de)(de)學生從(cong)ASC里(li)發現了(le)計算(suan)(suan)的(de)(de)(de)潛力,在各個(ge)行業(ye),有(you)的(de)(de)(de)去了(le)金(jin)融公(gong)司,有(you)的(de)(de)(de)去了(le)互聯網公(gong)司。這是一棵大(da)樹(shu)(shu),希望我(wo)能和浪潮(chao)、亞洲超算(suan)(suan)協會(hui)和其他(ta)為這項比(bi)賽(sai)辛勤付出的(de)(de)(de)人一起,把這棵大(da)樹(shu)(shu)慢(man)(man)慢(man)(man)培養(yang)長大(da),最后長成參天大(da)樹(shu)(shu),讓全人類都享受到(dao)(dao)計算(suan)(suan)帶來的(de)(de)(de)強大(da)力量(liang)。
謝謝大家。