北(bei)京2021年3月(yue)23日 /美通社/ -- 在(zai)數字(zi)化轉型(xing)戰(zhan)略持續落地的(de)今天,大數據(ju)分析與人工智能已成為各個行業挖掘數據(ju)價值、推(tui)動(dong)業務轉型(xing)升級的(de)重要方式,但傳(chuan)統(tong)的(de)大數據(ju)平(ping)臺(tai)與人工智能平(ping)臺(tai)通常彼此獨立(li),構(gou)建一種從數據(ju)采集、數據(ju)預處(chu)理到(dao)模(mo)型(xing)訓練與推(tui)理的(de)高(gao)效流程,經常存在(zai)基礎(chu)設(she)施(shi)成本高(gao)、效率低(di)下(xia)等(deng)一系列問題。
為了(le)(le)更好(hao)解(jie)決(jue)大(da)數(shu)據分(fen)析(xi)與AI融合在(zai)開(kai)發和部署方面帶來的(de)(de)諸多疑難,浪潮云海Insight產品構建了(le)(le)端(duan)到端(duan)的(de)(de)智能(neng)計算(suan)解(jie)決(jue)方案,旨在(zai)將大(da)數(shu)據預處(chu)理、模型(xing)訓練、模型(xing)推理與現有的(de)(de)數(shu)據處(chu)理工作流(liu)整合起(qi)來,基于傳統(tong)大(da)數(shu)據分(fen)析(xi)平臺中的(de)(de)各種框架(jia)模型(xing)來簡化和加速(su)人工智能(neng)業務的(de)(de)開(kai)發。
這個挑戰很嚴峻:傳統分析模式難以高效“回應”分布式端到端數據分析
通常傳統(tong)的(de)(de)人工智(zhi)能學習(xi)框架與大數(shu)據(ju)(ju)分析平臺(tai)之(zhi)間(jian)存在(zai)斷層,人工智(zhi)能平臺(tai)由于(yu)不具備(bei)多(duo)元的(de)(de)數(shu)據(ju)(ju)接入(ru)及預處理能力(li),往(wang)(wang)往(wang)(wang)依賴外部(大數(shu)據(ju)(ju)平臺(tai))預處理過的(de)(de)數(shu)據(ju)(ju)集進行(xing)分析;而(er)傳統(tong)大數(shu)據(ju)(ju)平臺(tai)也沒有更多(duo)考量(liang)AI因(yin)素,自(zi)然難(nan)以為AI應(ying)用(yong)提(ti)供敏捷、高效(xiao)的(de)(de)基礎設施支持。基于(yu)此,一個從(cong)無到有的(de)(de)AI應(ying)用(yong)場(chang)景搭建,往(wang)(wang)往(wang)(wang)面臨如下困難(nan):
打造端到端智能計算解決方案:大數據與AI分析平臺要統一
大(da)(da)數(shu)據生(sheng)態中,Apache Spark作為專(zhuan)為大(da)(da)規模數(shu)據處(chu)理而設計(ji)的計(ji)算引擎(qing),其本身提(ti)供了(le)很多Data Storage支持(chi),可幫助(zhu)操作者方便讀(du)取HDFS、Parquet、Avro和HBase等格式;同時也提(ti)供了(le)大(da)(da)量有用(yong)的API來(lai)完(wan)成(cheng)數(shu)據的ETL、特征提(ti)取以及數(shu)據清洗等工作,還可以利用(yong)Spark MLlib完(wan)成(cheng)一些(xie)傳統機器學(xue)習工作等。
而端到(dao)(dao)端的(de)智(zhi)能(neng)(neng)計算組(zu)件Analytics Zoo則(ze)可將Spark及AI生態中的(de)TensorFlow、Keras 、BigDL等無縫整(zheng)合到(dao)(dao)一個集(ji)成管道中,透明擴展至資(zi)源管理(li)YARN集(ji)群,可便捷地將人(ren)工智(zhi)能(neng)(neng)應用從單機(ji)擴展到(dao)(dao)大型集(ji)群,直(zhi)接處理(li)大規(gui)模生產(chan)環境(jing)中的(de)數據并(bing)進行分布(bu)式訓(xun)練或推(tui)理(li),如此看來端到(dao)(dao)端的(de)智(zhi)能(neng)(neng)計算解決方案并(bing)不是重(zhong)新開(kai)發各個組(zu)件,而是擁抱現有(you)的(de)開(kai)源生態。
此外Analytics Zoo 還(huan)為開發(fa)人員和(he)用(yong)(yong)(yong)戶提供了多種(zhong)分析和(he)人工(gong)智能工(gong)具,以(yi)便更好(hao)地為端到端流(liu)水線提供支(zhi)持,主要包括:簡單易用(yong)(yong)(yong)的抽象(xiang)層,例如Spark DataFrame 和(he) ML 流(liu)水線支(zhi)持、遷(qian)移(yi)學(xue)習支(zhi)持以(yi)及(ji)服務 API 的 POJO 式模型(xing)等(deng);面向(xiang)圖像(xiang)、文(wen)本和(he) 3D 圖像(xiang)的常(chang)用(yong)(yong)(yong)特征工(gong)程操(cao)作;內置的深度學(xue)習模型(xing),例如文(wen)本分類、推薦和(he)對象(xiang)檢測(ce);內置參(can)考用(yong)(yong)(yong)例,例如時間序列異常(chang)檢測(ce)、欺詐檢測(ce)和(he)圖像(xiang)相(xiang)似性(xing)搜索等(deng)。
基于Analytics Zoo的統(tong)一大(da)數據與AI分(fen)析平(ping)臺
如(ru)此形成的(de)智能計算(suan)解決方案可以(yi)(yi)統一大數據與AI分析平臺,幫助用戶(hu)將(jiang)數據存儲、數據處(chu)理以(yi)(yi)及訓練推(tui)理的(de)流(liu)水(shui)線整(zheng)合到一套(tao)基礎(chu)設施中,大幅提升方案的(de)部署(shu)效率(lv)、資源利用率(lv)和系(xi)統的(de)可擴展性,以(yi)(yi)此減少管理以(yi)(yi)及運(yun)維成本。
不斷探索:浪潮云海Insight關于“端到端智能計算”的實踐
作為面向海量數(shu)據(ju)存儲、計算、挖掘的一站(zhan)式企業級大(da)數(shu)據(ju)解決方案(an),浪(lang)潮云(yun)海Insight大(da)數(shu)據(ju)平臺從用戶需求出發并結合業務(wu)場景,對端(duan)到(dao)端(duan)智能計算進(jin)行方案(an)性POC及(ji)(ji)驗(yan)證,最終在平臺中(zhong)將(jiang)其技術產品(pin)化,包(bao)括(kuo)智能計算相(xiang)關組件的一鍵安(an)裝(zhuang)部署、可視化運維、交(jiao)互式智能數(shu)據(ju)分析體驗(yan)以(yi)及(ji)(ji)端(duan)到(dao)端(duan)AI流式推理等。
通過(guo)簡化大數據分(fen)(fen)析和(he)人工(gong)智(zhi)能(neng)的融(rong)合開(kai)發與部(bu)署,構建端到端的數據分(fen)(fen)析和(he)深度學習應(ying)用流水線(xian),進而打造統一的大數據分(fen)(fen)析和(he)人工(gong)智(zhi)能(neng)平臺,為用戶提供(gong)了更優質的體驗。
Analytics Zoo在大(da)數據生態中的位(wei)置
該方案基于大(da)數據(ju)HDFS存儲(chu)、Spark/Flink等計算以及(ji)Yarn資源調度(du)來(lai)運行,將數據(ju)預處理(li)(li)、模型(xing)訓練、模型(xing)推(tui)理(li)(li)等通過Analytics Zoo構建在(zai)大(da)數據(ju)平臺(tai)上(shang),提供大(da)數據(ju)分析和深度(du)學習應用流水線,避免數據(ju)的反復遷移。
用(yong)戶可(ke)以便捷(jie)地(di)(di)將AI應用(yong)部署到(dao)(dao)現(xian)有(you)的(de) YARN 集(ji)群,在(zai)“零”代碼(ma)更改的(de)前(qian)提下(xia)將AI應用(yong)程序透明地(di)(di)擴展到(dao)(dao)大(da)型集(ji)群,顯著節約企業(ye)在(zai)開發、優化平臺等方(fang)面的(de)時(shi)間與精力,具體可(ke)以達到(dao)(dao):
端到端的大數(shu)據分析和(he)深度學習應用流水線
重要的一點,得益于浪潮云海Insight大數據(ju)平(ping)(ping)臺(tai)在(zai)性(xing)能(neng)、數據(ju)管理、統(tong)一運維等方面的優勢,以及(ji)對于Analytics Zoo的融合,該端到端智能(neng)計算(suan)解決方案如(ru)今能(neng)夠成(cheng)功幫助(zhu)政(zheng)府、金融和互聯網等客戶構建高效、敏捷的大數據(ju)分(fen)析與人工智能(neng)平(ping)(ping)臺(tai),助(zhu)力(li)數字化轉型。
伴隨大(da)數據(ju)與人(ren)工(gong)智(zhi)能的(de)蓬勃發(fa)(fa)展(zhan)(zhan),數智(zhi)結(jie)合(he)已成為大(da)數據(ju)技術發(fa)(fa)展(zhan)(zhan)的(de)必然(ran)趨勢。浪潮云海Insight將從數智(zhi)深度融合(he)的(de)角度出發(fa)(fa),繼續加(jia)強(qiang)端到端的(de)大(da)數據(ju)分析和(he)人(ren)工(gong)智(zhi)能的(de)創新發(fa)(fa)展(zhan)(zhan),為用戶提供更(geng)優秀的(de)解決方案(an)。