北京2022年12月13日 /美通社/ -- 存儲(chu)系(xi)統是(shi)由控制器(qi)(qi)、背板、結(jie)構(gou)件(jian)(jian)、硬(ying)盤、內存等(deng)部件(jian)(jian)構(gou)成的多個子系(xi)統組(zu)成,其中任何單一元器(qi)(qi)件(jian)(jian)故障都可能(neng)導致存儲(chu)系(xi)統出現問題。因此,系(xi)(xi)統可靠運行的基礎,離不開(kai)(kai)元器件(jian)(jian)、部(bu)件(jian)(jian)以及整個(ge)控(kong)制系(xi)(xi)統的可靠性(xing)設計。浪(lang)潮存儲從系(xi)(xi)統級(ji)(ji)開(kai)(kai)發、電路板級(ji)(ji)開(kai)(kai)發、部(bu)件(jian)(jian)引入、生產加工等多個(ge)環節來保障系(xi)(xi)統的可靠性(xing)及穩定性(xing)。
系統級可(ke)靠性設計
在(zai)存(cun)(cun)(cun)儲(chu)系統(tong)(tong)中(zhong),許多(duo)元器件(jian)發(fa)生(sheng)故(gu)障(zhang)是由(you)于系統(tong)(tong)設(she)(she)計(ji)(ji)(ji)不(bu)合理或(huo)元器件(jian)使用(yong)不(bu)當所造成的,并不(bu)是元件(jian)本身存(cun)(cun)(cun)在(zai)缺陷。浪潮存(cun)(cun)(cun)儲(chu)系統(tong)(tong)級(ji)可靠(kao)性設(she)(she)計(ji)(ji)(ji)包含:可靠(kao)性模型(xing)建立及(ji)評估、冗余設(she)(she)計(ji)(ji)(ji)、容錯(cuo)設(she)(she)計(ji)(ji)(ji)、故(gu)障(zhang)隔離(失效(xiao)分析)、熱(re)設(she)(she)計(ji)(ji)(ji)、EMC/EMI(Electro Magnetic Compatibility/Electromagnetic Interference,電(dian)磁(ci)兼容性/電(dian)磁(ci)干擾)設(she)(she)計(ji)(ji)(ji)、安規設(she)(she)計(ji)(ji)(ji)、環境及(ji)結構設(she)(she)計(ji)(ji)(ji)等。
其(qi)一,控制器單元冗余(yu)設計。關鍵元器件增(zeng)加完全(quan)相同功能的備(bei)用(yong)通道,保障(zhang)該部分(fen)出現(xian)故障(zhang)時不影響(xiang)系(xi)統正常運行。比如雙BIOS設計,當BIOS由于Flash芯片故障(zhang)或者(zhe)升級失(shi)敗(bai)損壞時,可由備(bei)用(yong)BIOS接管,從而避免無法開機。控制(zhi)器冗余設計以犧牲成(cheng)本為代價(jia),但存儲系(xi)統設計首要(yao)考慮因素應是其可靠性(xing)。
其二,控(kong)制(zhi)單元掉電保護。存儲(chu)系(xi)(xi)統增加(jia)BBU電(dian)池(chi)(Battery Back-Up)來抵抗電(dian)網瞬間(jian)斷電(dian)或電(dian)壓突降等突發因素(su),軟(ruan)件系(xi)(xi)統將掉電(dian)信號定義為最(zui)高(gao)級別中斷,使(shi)控制單元能(neng)及(ji)時(shi)對掉電(dian)做出反(fan)應,防(fang)止數據(ju)丟失(shi),確保業務(wu)的連續(xu)性。
其三,結構設計。結(jie)構可靠(kao)性設計是硬件可靠(kao)性設計的(de)重要階段。結(jie)構設計時(shi),首先應注意元(yuan)器件及(ji)部件的(de)安(an)裝方式,其次是控制系統工作環境(jing)的(de)條件(如通風、除(chu)濕(shi)、防塵(chen)等)。
其四,噪聲(sheng)抑制(zhi)。存儲(chu)系統(tong)主要(yao)通過如下方式對(dui)噪聲進行抑制(zhi):首(shou)先,選擇高效(xiao)率雙馬達風(feng)扇(shan)(shan),優(you)化(hua)系統(tong)散熱(re)所需風(feng)扇(shan)(shan)轉速;其次(ci),優(you)化(hua)節點導風(feng)罩(zhao)設(she)計,降(jiang)低單節點流(liu)阻(zu);再次(ci),系統(tong)風(feng)扇(shan)(shan)調控導入PID控制(zhi),降(jiang)低低負載時系統(tong)風(feng)扇(shan)(shan)轉速;最后,通過散熱(re)器優(you)化(hua)、風(feng)道布局優(you)化(hua)及系統(tong)流(liu)阻(zu)優(you)化(hua)改(gai)善散熱(re)效(xiao)果,從而降(jiang)低正常(chang)工作(zuo)負載下設(she)備噪聲。
其五(wu),散(san)熱設計。存儲系(xi)統通過(guo)對系(xi)統布(bu)局進行風(feng)道(dao)(dao)(dao)劃分,一般分為:Memory風(feng)道(dao)(dao)(dao)、CPU風(feng)道(dao)(dao)(dao)、節點風(feng)道(dao)(dao)(dao),各(ge)風(feng)道(dao)(dao)(dao)之間利用機箱布(bu)局的(de)結(jie)構件實現風(feng)道(dao)(dao)(dao)的(de)串聯或并聯。風(feng)機散熱風(feng)量通過(guo)系(xi)統風(feng)扇加速(su)后,進入并聯的(de)節點風(feng)道(dao)(dao)(dao),從節點尾部的(de)開(kai)孔結(jie)構排出(chu),從而保(bao)障系(xi)統的(de)穩(wen)定運行。
散(san)熱仿真模(mo)型(xing)
其六,系統日(ri)志收(shou)集。存儲(chu)系(xi)統會在一(yi)定(ding)的(de)(de)時(shi)間(jian)周(zhou)期內(nei)收集(ji)系(xi)統的(de)(de)信(xin)息,并自動(dong)創建可以查看的(de)(de)文件。當存儲(chu)出(chu)現故障時(shi),可以通過(guo)日志快速定(ding)位到出(chu)問題的(de)(de)部件。
電(dian)路板(ban)開(kai)發可靠性設計(ji)
存儲研發團隊在設(she)計(ji)過程中,正(zheng)確(que)使用各種型號的元器件或集成電路(lu),提高(gao)硬件可(ke)靠性是不可(ke)忽視的重(zhong)要(yao)因(yin)素(su)。
一是電路設計(ji)。據統(tong)計(ji)(ji),影響存儲系統(tong)可(ke)靠性(xing)的(de)(de)(de)因素約45%來自系統(tong)設計(ji)(ji)。為了保證系統(tong)的(de)(de)(de)可(ke)靠性(xing),在電(dian)路(lu)設計(ji)(ji)時應(ying)考慮最極(ji)端的(de)(de)(de)情況。單板設計(ji)(ji)應(ying)考慮所有元件(jian)(jian)的(de)(de)(de)公(gong)差(cha)(cha),并(bing)取其最不(bu)利(li)的(de)(de)(de)數值(zhi)(zhi)核(he)算電(dian)路(lu)每一個規定的(de)(de)(de)特性(xing)。如果這一組參數值(zhi)(zhi)能保證電(dian)路(lu)正(zheng)常(chang)工作,那么在公(gong)差(cha)(cha)范圍內的(de)(de)(de)其他(ta)所有元件(jian)(jian)值(zhi)(zhi)都能使電(dian)路(lu)可(ke)靠地工作。在設計(ji)(ji)電(dian)路(lu)時,開發(fa)人員還會(hui)對單板元器件(jian)(jian)進(jin)(jin)行(xing)降(jiang)額分析(xi),對重要元器件(jian)(jian)給出熱(re)應(ying)力(li)、電(dian)應(ying)力(li)的(de)(de)(de)降(jiang)額情況,并(bing)根據以(yi)往器件(jian)(jian)失效分析(xi)(FEMA)的(de)(de)(de)經驗(yan),對容易損(sun)壞的(de)(de)(de)集成電(dian)路(lu)、關鍵(jian)元器件(jian)(jian)進(jin)(jin)行(xing)優化設計(ji)(ji)。
二是元器件選擇。在確(que)定(ding)元器(qi)(qi)件(jian)(jian)參數(shu)之(zhi)后,還(huan)要(yao)確(que)定(ding)元器(qi)(qi)件(jian)(jian)的(de)(de)型(xing)號,這主(zhu)要(yao)取(qu)決于(yu)電路所(suo)允許(xu)的(de)(de)公差范圍(wei)。由(you)于(yu)制造(zao)工藝所(suo)限,有些元器(qi)(qi)件(jian)(jian)參數(shu)的(de)(de)公差范圍(wei)可能較大,如電容器(qi)(qi)電容量等(deng)。此外,元器(qi)(qi)件(jian)(jian)的(de)(de)額定(ding)工作條件(jian)(jian)包括多個方(fang)面(如電流、電壓(ya)、頻(pin)率、機(ji)械參數(shu)以及環(huan)境(jing)溫度等(deng)),設計時(shi)要(yao)考(kao)慮參數(shu)裕量,并確(que)保運行在工作條件(jian)(jian)范圍(wei)內(nei)。
三是電氣性能。元(yuan)(yuan)器件的(de)電(dian)氣性(xing)能是指元(yuan)(yuan)器件所(suo)能承受的(de)電(dian)壓、電(dian)流、電(dian)容、功率等能力,在(zai)使(shi)用時(shi)要注意元(yuan)(yuan)器件的(de)電(dian)氣性(xing)能,不能超(chao)限使(shi)用。
四是(shi)SI(signal integrity信號完整性)仿(fang)真設計。伴隨著信號(hao)頻率的提(ti)升,在存儲系統上分析和發(fa)現信號(hao)完整性問題并有效解決(jue)是非常復雜的。存儲系統借助EDA(Electronic Design Automation,電子設計自(zi)動化(hua))工具,對(dui)電路的參數進(jin)行仿真分析,提(ti)前發(fa)現問題,從而縮(suo)短研發(fa)周期,降低(di)研發(fa)成(cheng)本。
五是(shi)生產(chan)工藝。由于工藝原因引(yin)起的故障通常很難(nan)定位排查,一(yi)個(ge)焊(han)點的虛焊(han)很可(ke)能導致整個(ge)系統在工作過程中出現不穩定現象。因此,設計印制電路板(ban)時應考慮(lv)元器件(jian)的布局、引(yin)線的走向、引(yin)線的分(fen)類排序等。
六是(shi)硬件測試。浪潮存(cun)儲研發團隊引入價(jia)值上百(bai)萬的高(gao)(gao)(gao)端測試(shi)設備,其中包含50G高(gao)(gao)(gao)端示波(bo)器、50G高(gao)(gao)(gao)帶寬硬件(jian)(jian)鏈(lian)路誤(wu)碼儀(yi)以及(ji)相關治具(ju)。存(cun)儲硬件(jian)(jian)研發團隊制定了(le)全覆蓋、無遺漏的信(xin)號測試(shi)規范,并進一步加強(qiang)(qiang)加固驗(yan)(yan)證測試(shi)。其中包括板(ban)卡間(jian)熱插(cha)拔、固件(jian)(jian)反復升級驗(yan)(yan)證、單/雙控(kong)故障,板(ban)間(jian)信(xin)號動(dong)態(tai)測試(shi),低(di)溫啟動(dong)、高(gao)(gao)(gao)溫壓力(li)測試(shi),加強(qiang)(qiang)驗(yan)(yan)證SI鏈(lian)路可靠性測試(shi)。
PCIE5.0測(ce)試
部件(jian)引(yin)入確保可靠性(xing)設計
硬盤(pan)作為存儲(chu)介質的(de)(de)(de)(de)中堅力量,保證機械硬盤(pan)的(de)(de)(de)(de)安(an)全性和(he)可靠性成為存儲(chu)研發(fa)(fa)部件團隊(dui)的(de)(de)(de)(de)重(zhong)(zhong)中之重(zhong)(zhong)。浪(lang)潮存儲(chu)研發(fa)(fa)團隊(dui)通過與硬盤(pan)廠商的(de)(de)(de)(de)技(ji)(ji)術(shu)分享搭(da)配自己的(de)(de)(de)(de)專利技(ji)(ji)術(shu),形成了一套包(bao)括磁盤(pan)的(de)(de)(de)(de)加密、協議層的(de)(de)(de)(de)定制(zhi)以及寫緩存的(de)(de)(de)(de)關(guan)閉等技(ji)(ji)術(shu)的(de)(de)(de)(de)定制(zhi)方(fang)(fang)案(an)。配合Raid技(ji)(ji)術(shu)更(geng)好地保證了客戶對數據安(an)全性的(de)(de)(de)(de)要(yao)求,開發(fa)(fa)出了一套獨有的(de)(de)(de)(de)篩盤(pan)方(fang)(fang)案(an)和(he)篩盤(pan)設備來滿足(zu)金融等行業用戶的(de)(de)(de)(de)需求。
針對(dui)存儲(chu)設備,浪潮存儲(chu)研發(fa)團隊開發(fa)了(le)多控制(zhi)器系統,配合鎖(suo)盤技術、硬(ying)盤定制(zhi)化以及Raid技術,實(shi)現了(le)硬(ying)盤高速讀寫(xie)的需(xu)求和(he)安全性(xing)、可靠(kao)性(xing)的完美結合。硬(ying)盤經過引入測(ce)(ce)試(shi)、兼容性(xing)測(ce)(ce)試(shi)、篩盤測(ce)(ce)試(shi)、老化測(ce)(ce)試(shi)等層層把控為存儲(chu)設備打造堅(jian)實(shi)底座。
生產(chan)制造保障(zhang)可靠性(xing)
生產(chan)(chan)制造是產(chan)(chan)品生命(ming)周(zhou)期中重要一環,通過(guo)批量生產(chan)(chan)和用戶反饋(kui)有助于發現更多前期設計遺漏和缺陷,及(ji)時維護查缺補漏。
浪潮存儲(chu)(chu)在(zai)(zai)生產(chan)線引(yin)入了(le)用(yong)于測試存儲(chu)(chu)產(chan)品在(zai)(zai)不同溫(wen)度(du)條件(jian)下是否可以正常穩定(ding)運行的(de)溫(wen)循房,環境溫(wen)度(du)可以根據需求(qiu)隨時調(diao)整,加(jia)速缺陷部件(jian)的(de)故障復(fu)現(xian),從而降低產(chan)品到貨即損(DOA)的(de)情況。同時,提出增加(jia)極(ji)限場景測試和模擬客戶實際使用(yong)場景的(de)長穩壓力測試等生產(chan)模式,提高存儲(chu)(chu)產(chan)品穩定(ding)性和可靠性。
高端存(cun)儲產(chan)品必須保證極致穩(wen)定,設備(bei)生產(chan)完畢后(hou)先進行7至14天(tian)的長穩(wen)測試(shi),測試(shi)用例中模(mo)擬客戶(hu)實際業務(wu)場(chang)景(jing),采用客戶(hu)常(chang)(chang)見的數據類(lei)型進行壓力測試(shi),觀(guan)察(cha)測試(shi)過程中存(cun)儲設備(bei)是(shi)否(fou)有(you)告警和異常(chang)(chang),將一切不穩(wen)定因素(su)攔(lan)截在生產(chan)階段,保證設備(bei)交(jiao)付后(hou)的穩(wen)定、可靠運(yun)行。
基本應用(yong)拓撲(pu)
近年來,浪(lang)潮存(cun)儲持續加大研發投入和創新,致力于打造安全、可靠(kao)、經濟(ji)、高(gao)效的數(shu)據存(cun)儲底座,不(bu)斷追求(qiu)“極(ji)致穩定”,為數(shu)據存(cun)儲保(bao)駕護航,服(fu)務各(ge)行各(ge)業。