北京2021年8月(yue)2日 /美通(tong)社(she)(she)/ -- 7月(yue)27日,由(you)OCP社(she)(she)區主辦、浪(lang)潮(chao)承辦的第(di)三(san)屆(jie)OCP China Day順利(li)舉行。會(hui)上(shang),浪(lang)潮(chao)聯(lian)(lian)合騰訊云發布《數據(ju)(ju)中(zhong)心(xin)(xin)服務器智能故障(zhang)診(zhen)斷(duan)TIFDS(Tencent & Inspur Fault Diagnosis System)系(xi)統技術白皮(pi)書》,白皮(pi)書詳細解讀(du)了(le)當前大規模數據(ju)(ju)中(zhong)心(xin)(xin)運維面臨的挑戰,闡(chan)述(shu)了(le)騰訊云與浪(lang)潮(chao)聯(lian)(lian)合研發的TIFDS系(xi)統架構,為大規模數據(ju)(ju)中(zhong)心(xin)(xin)提升服務器運維效率,保障(zhang)數據(ju)(ju)中(zhong)心(xin)(xin)穩定運行提供重要參考。
以騰(teng)訊云數百萬服務(wu)器運(yun)營數據和浪(lang)潮深厚的固(gu)件研(yan)發(fa)專家(jia)經驗庫為基礎,“TIFDS”系統(tong)可利用AI技術(shu)對海量服務(wu)器運(yun)行數據實(shi)時分(fen)析,對各類部件故障(zhang)實(shi)時預警,故障(zhang)診斷“火眼金睛”,故障(zhang)自(zi)動明(ming)確化率(lv)提(ti)升至95%以上(shang),遠超業界(jie)平(ping)均水平(ping)。
OCP China Day現場騰(teng)訊云星(xing)星(xing)海(hai)實驗室(shi)研發副總監劉超介紹白(bai)皮書內容
大規模數據中心服務器猛增 人力運維接近極限
伴隨(sui)著互聯(lian)網企業的崛起(qi),云計(ji)算市(shi)(shi)場已走(zou)過(guo)十多年的時間,據(ju)Gartner數據(ju)統計(ji),2020年全球云計(ji)算市(shi)(shi)場快速(su)(su)(su)增(zeng)(zeng)長(chang)(chang),增(zeng)(zeng)速(su)(su)(su)超過(guo)40%,中國云計(ji)算市(shi)(shi)場也(ye)持(chi)續兩位數增(zeng)(zeng)長(chang)(chang),市(shi)(shi)場增(zeng)(zeng)長(chang)(chang)動能逐漸從(cong)泛互聯(lian)網向產業化(hua)快速(su)(su)(su)滲透,增(zeng)(zeng)長(chang)(chang)持(chi)續加速(su)(su)(su)。
白(bai)皮書指(zhi)出,云計算的(de)(de)快(kuai)速(su)擴張帶(dai)來了數據中心服務(wu)器(qi)數量的(de)(de)爆發式增長,隨(sui)之而來的(de)(de)服務(wu)器(qi)運(yun)(yun)維(wei)管(guan)理(li)復雜度(du)和難度(du)也越來越大(da)(da),而傳統的(de)(de)海(hai)量服務(wu)器(qi)故(gu)障(zhang)運(yun)(yun)營面臨著(zhu)更(geng)大(da)(da)的(de)(de)挑(tiao)戰和更(geng)高昂的(de)(de)成本,從最初的(de)(de)腳本運(yun)(yun)維(wei)、工具運(yun)(yun)維(wei)到平臺運(yun)(yun)維(wei)演(yan)進至今(jin),人力已接(jie)近極(ji)限(xian),越來越無法(fa)滿足快(kuai)速(su)修(xiu)復故(gu)障(zhang)和恢復業務(wu)運(yun)(yun)行的(de)(de)要求。為高效管(guan)理(li)十萬甚至百(bai)萬級服務(wu)器(qi),智能化的(de)(de)監控診斷系統成為大(da)(da)規模數據中心必不(bu)可少的(de)(de)工具。
公布TIFDS系統架構,故障自動明確化率95%以上
TIFDS(Tencent & Inspur Fault Diagnosis System)是騰訊云與浪潮聯合(he)研發的(de)故障(zhang)診(zhen)斷(duan)系(xi)統(tong),是服務器健康(kang)監管技術及故障(zhang)預警診(zhen)斷(duan)技術的(de)總稱,旨在(zai)實(shi)現運維工(gong)作由人工(gong)離線(xian)分析向自動智(zhi)能(neng)在(zai)線(xian)識別的(de)方向發展(zhan),建立一套以(yi)帶外BMC為(wei)中心的(de)故障(zhang)診(zhen)斷(duan)系(xi)統(tong)。據(ju)白(bai)皮(pi)書介紹(shao),TIFDS系(xi)統(tong)具(ju)有風險(xian)實(shi)時(shi)預警,故障(zhang)精準診(zhen)斷(duan)和日志定制(zhi)化(hua)透明安全等特點,對提升大規模數據(ju)中心運維效率(lv)具(ju)有重要(yao)意義(yi)。
騰訊云(yun)(yun)服務(wu)器運營中(zhong)心(xin)(xin)副總經理(li)嚴(yan)勇表示:“騰訊云(yun)(yun)在(zai)全球數(shu)(shu)據(ju)中(zhong)心(xin)(xin)服務(wu)器數(shu)(shu)量早已超過(guo)百(bai)萬臺(tai),此次發布的(de)TIFDS系統,不(bu)僅(jin)能(neng)大幅(fu)提升自身數(shu)(shu)據(ju)中(zhong)心(xin)(xin)的(de)服務(wu)器運維(wei)效率(lv),為(wei)騰訊云(yun)(yun)平(ping)臺(tai)的(de)穩定運行(xing)提供(gong)堅實的(de)技術支撐,也將為(wei)各類新(xin)興應(ying)用在(zai)公有云(yun)(yun)平(ping)臺(tai)的(de)大規(gui)模落地提供(gong)良好的(de)技術儲備。”
浪潮信息研發(fa)(fa)項目管理(li)(li)部總經理(li)(li)宋曉鋒表示:“TIFDS是數據(ju)中心(xin)服務器(qi)運維技術的(de)重(zhong)要(yao)創新,是騰(teng)訊云(yun)與浪潮雙方基于(yu)JDM模式(shi),打(da)破原(yuan)有(you)產業(ye)鏈上下(xia)游(you)合作(zuo)模式(shi),進(jin)行(xing)聯合研發(fa)(fa)的(de)又一成果。此(ci)次,浪潮與騰(teng)訊云(yun)將TIFDS架構進(jin)行(xing)梳理(li)(li),聯合發(fa)(fa)布(bu)了業(ye)界首個數據(ju)中心(xin)故障運維白皮書(shu),為提升數據(ju)中心(xin)運維效率和(he)云(yun)計算(suan)穩定性具有(you)重(zhong)要(yao)的(de)借鑒意義。”