亚洲在线日韩伦理片,96精品国产AⅤ一区二区,青鸟影视网,yy黄色频道,国内精品久久久精品AV电影院

AI應用大咖說:多相機的時空融合模型架構算法優化

2022-12-23 11:18 5875

北京(jing)2022年12月(yue)23日(ri) /美通社/ -- 隨著人工智(zhi)能技(ji)術的(de)廣泛應(ying)用,智(zhi)能駕(jia)駛系統(tong)正在(zai)成為(wei)汽車的(de)標配。而(er)作(zuo)為(wei)識別周邊環境的(de)“火(huo)眼(yan)金睛”,“感(gan)知”模塊是智(zhi)能駕(jia)駛系統(tong)安全、高效運(yun)行(xing)的(de)核心,而(er)視覺感(gan)知更是其中(zhong)無比重要的(de)一環。浪(lang)潮信息(xi)AI團隊長期關注(zhu)AI算(suan)(suan)法(fa)在(zai)自動駕(jia)駛中(zhong)的(de)應(ying)用,并致力于用軟(ruan)硬件的(de)算(suan)(suan)法(fa)和技(ji)術創新(xin)(xin)推(tui)動行(xing)業的(de)進(jin)步,做出創新(xin)(xin)性的(de)成績。最近,浪(lang)潮信息(xi)在(zai)自動駕(jia)駛感(gan)知權威數(shu)據集(ji) NuScenes 評測中(zhong),自研算(suan)(suan)法(fa) DABNet4D 獲得 0. 624 的(de)NDS精度(du),位列Camera-only榜單第一名。

近(jin)日,浪潮信息(xi)人工智能與(yu)高性(xing)能應用軟件(jian)部自動(dong)駕(jia)(jia)(jia)駛AI研(yan)究員(yuan)趙云博(bo)士,在題為《探索(suo)自動(dong)駕(jia)(jia)(jia)駛純視覺感(gan)知(zhi)精度新突破 -- 多相機的(de)時空融合模型架構算法(fa)優化》的(de)自動(dong)駕(jia)(jia)(jia)駛線上研(yan)討會(hui)上,向我們揭開了這一自動(dong)駕(jia)(jia)(jia)駛感(gan)知(zhi)算法(fa)的(de)神秘(mi)面紗。

多相機多任務融合模型優勢

自(zi)動(dong)駕駛(shi)汽車(che)完成(cheng)自(zi)動(dong)駕駛(shi)出行任(ren)務,離不開感知(zhi)、決策、控制(zhi)三大要素(su)。其中(zhong)感知(zhi)系統是車(che)輛和環境交互(hu)的(de)紐(niu)帶,相當于無人汽車(che)的(de)眼(yan)睛。根(gen)據所(suo)用(yong)的(de)傳感器以及傳感器數量和種類(lei)等(deng),自(zi)動(dong)駕駛(shi)感知(zhi)算法可以簡單的(de)分(fen)為單傳感器(單任(ren)務和多任(ren)務)模型、(同(tong)類(lei)和不同(tong)類(lei))傳感器融(rong)合(he)模型等(deng)四類(lei),并(bing)各有其優缺點。

自動駕駛感知的(de)關鍵(jian)是3D目(mu)標(biao)檢(jian)(jian)測(ce)(ce)任務,又分為基于(yu)相機、Lidar的(de)3D目(mu)標(biao)檢(jian)(jian)測(ce)(ce),以及(ji)相機、Lidar、Radar融(rong)合等技術。盡管目(mu)前對于(yu)3D目(mu)標(biao)檢(jian)(jian)測(ce)(ce)已(yi)經有不少的(de)研究(jiu),但(dan)是在實際應(ying)用中仍然(ran)有許(xu)多(duo)的(de)問題,其難點主(zhu)要在于(yu):

  • 遮擋,遮擋分為兩種情況,目標物體相互遮擋和目標物體被背景遮擋
  • 截斷,部分物體被圖片截斷,在圖片中只能顯示部分物體
  • 小目標,相對輸入圖片大小,目標物體所占像素點極少
  • 缺失深度信息,2D圖片相對于激光數據存在信息稠密、成本低的優勢,但是也存在缺失深度信息的缺點
  • 現有方式大都依賴于物體表面紋理或結構特征,容易造成混淆。

目(mu)前,基于相(xiang)機(ji)的方法(fa)與(yu)基于Lidar的方法(fa)準確度差距正在縮小,而(er)隨著Lidar成(cheng)(cheng)本(ben)降低,融合(he)技術在成(cheng)(cheng)本(ben)和準確度的平(ping)衡(heng)上存在優勢。

基(ji)于多(duo)相(xiang)機多(duo)任務(wu)融合模型(xing)的(de)3D目標檢(jian)測技術(shu)正是在成本優勢與日益增長的(de)準確度兩(liang)相(xiang)促(cu)進下得到越來越多(duo)的(de)認(ren)可。目前,多(duo)相(xiang)機多(duo)任務(wu)融合模型(xing)主要遵循(xun)特(te)征(zheng)提取、特(te)征(zheng)編碼(ma)、統一BEV、特(te)征(zheng)解(jie)碼(ma)和檢(jian)測頭五(wu)大(da)部分。

其(qi)中,統一BEV 就是(shi)鳥(niao)瞰圖(tu),亦即(ji)將圖(tu)像特征統一投射到BEV視角下,用以表示車周圍環境。“統一BEV”的(de)工作可(ke)以分為兩大類,一種基(ji)于幾何視覺的(de)變(bian)換,也就是(shi)基(ji)于相機的(de)物理原理,優勢在于模(mo)型確定(ding),難(nan)度(du)在深(shen)度(du)估計;另一種是(shi)基(ji)于神經網絡的(de)變(bian)換。

浪潮DABNet4D算法三大創新突破

據趙云介(jie)紹,浪潮(chao)DABNet4D算法遵循上述框架,采用基于(yu)幾何視覺的變換(huan)方法,設計了端(duan)到端(duan)的模塊(kuai)化整體架構,通(tong)過將環(huan)視圖檢測統(tong)一(yi)到BEV空間,為(wei)后續的工作提供了很(hen)好的模板。

DABNet4D模型被(bei)劃分為(wei)四(si)個部分,Image-view Encoder,View-transformer,BEV-Encoder,Detection Head。其中(zhong)(zhong)Image-view Encoder為(wei)圖像編(bian)(bian)碼模塊將原始圖像轉換為(wei)高層特(te)征表示。 View-Transformer模塊負(fu)責將圖像特(te)征轉換到BEV坐(zuo)標(biao)中(zhong)(zhong),主(zhu)要(yao)包括(kuo)三(san)個模塊:深度預測(ce)模塊、特(te)征轉換模塊和(he)多幀特(te)征融合模塊。BEV-Encoder & Heads主(zhu)要(yao)是對融合BEV特(te)征進行編(bian)(bian)碼;Heads用來完(wan)成最終的(de)3D目標(biao)檢測(ce)任務。


創新突破一 數據樣本增強(qiang)

為(wei)平衡(heng)不同種類的(de)(de)(de)樣(yang)(yang)本數(shu)量,浪潮信息AI團隊創新研發(fa)了基于3D的(de)(de)(de)圖像貼(tie)圖技術。主(zhu)要是通(tong)過從(cong)(cong)整個(ge)訓練數(shu)據集(ji)中(zhong)(zhong)(zhong)根據每個(ge)樣(yang)(yang)本的(de)(de)(de)3D真(zhen)(zhen)值標簽,提取樣(yang)(yang)本數(shu)據構建(jian)樣(yang)(yang)本數(shu)據庫。訓練過程中(zhong)(zhong)(zhong),通(tong)過在樣(yang)(yang)本數(shu)據庫中(zhong)(zhong)(zhong)采樣(yang)(yang)獲取備選樣(yang)(yang)本集(ji)合,按照(zhao)真(zhen)(zhen)值深度值從(cong)(cong)遠至近貼(tie)圖,并將(jiang)對應(ying)的(de)(de)(de)Lidar數(shu)據進行粘貼(tie)。

創新突破二(er) 深度信息優化

基于圖像(xiang)(xiang)(xiang)的3D目標檢測,由于攝(she)像(xiang)(xiang)(xiang)頭拍攝(she)的照片和視(shi)頻(pin)是將原有3D空間直接投射至2D平面中,所以(yi)會丟失(shi)深(shen)度(du)(du)(du)信(xin)息,由此所面臨(lin)的核心問(wen)題為如何精確地估(gu)計(ji)(ji)(ji)(ji)圖像(xiang)(xiang)(xiang)中物體的深(shen)度(du)(du)(du)。針對(dui)此問(wen)題,浪潮信(xin)息AI團隊進行了兩(liang)方面的改(gai)進工作:一是建立更(geng)復雜的深(shen)度(du)(du)(du)估(gu)計(ji)(ji)(ji)(ji)網(wang)絡(luo),通過(guo)設(she)計(ji)(ji)(ji)(ji)更(geng)深(shen)、更(geng)多參數(shu)的深(shen)度(du)(du)(du)神(shen)經(jing)網(wang)絡(luo),以(yi)增大(da)深(shen)度(du)(du)(du)估(gu)計(ji)(ji)(ji)(ji)網(wang)絡(luo)的預(yu)測能力和感(gan)受野;二是采(cai)用兩(liang)層(ceng)級(ji)聯深(shen)度(du)(du)(du)估(gu)計(ji)(ji)(ji)(ji)網(wang)絡(luo)結構,第一層(ceng)估(gu)計(ji)(ji)(ji)(ji)網(wang)絡(luo)估(gu)計(ji)(ji)(ji)(ji)的深(shen)度(du)(du)(du)作為特征,輸入到第二層(ceng)級(ji)聯網(wang)絡(luo)中。除了進行網(wang)絡(luo)創新設(she)計(ji)(ji)(ji)(ji)優(you)化(hua),在訓練階段也采(cai)用深(shen)度(du)(du)(du)監督、深(shen)度(du)(du)(du)補全、損失(shi)函(han)數(shu)等優(you)化(hua)方法。

創新突破三(san) 四維時空融(rong)合

對(dui)(dui)于(yu)自(zi)動駕駛車輛(liang)而(er)言,它所(suo)處的(de)環境更像是一(yi)個動態變化的(de)三維空間(jian)。為(wei)進(jin)(jin)一(yi)步(bu)引入(ru)車輛(liang)所(suo)處的(de)動態中的(de)歷史(shi),通過引入(ru)時(shi)(shi)間(jian)信(xin)息進(jin)(jin)行(xing)時(shi)(shi)序融合(he),提升velocity預測(ce)的(de)精度(du),實現對(dui)(dui)暫時(shi)(shi)被遮擋的(de)物體更好(hao)的(de)跟蹤效果。對(dui)(dui)此,浪潮信(xin)息AI團隊做了(le)以(yi)下(xia)幾(ji)點創(chuang)新(xin):1、更精細的(de)時(shi)(shi)空對(dui)(dui)齊(qi)操作,使(shi)前后幀(zhen)(zhen)特(te)征結合(he)的(de)更精確(que)。根據(ju)不同(tong)(tong)時(shi)(shi)刻車輛(liang)的(de)位姿以(yi)及車輛(liang)、相機、Lidar坐標系(xi)的(de)轉(zhuan)換(huan)關系(xi),獲(huo)取不同(tong)(tong)時(shi)(shi)刻相機與(yu)指定Lidar的(de)坐標系(xi)的(de)轉(zhuan)換(huan)關系(xi),進(jin)(jin)一(yi)步(bu)減少(shao)由于(yu)采集車輛(liang)自(zi)身運動對(dui)(dui)多幀(zhen)(zhen)BEV特(te)征對(dui)(dui)齊(qi)帶來的(de)影響;2、從(cong)sweep數(shu)據(ju)幀(zhen)(zhen)隨機選(xuan)取作為(wei)前一(yi)幀(zhen)(zhen)與(yu)當前幀(zhen)(zhen)進(jin)(jin)行(xing)匹配(pei),大幅(fu)地(di)增強(qiang)數(shu)據(ju)的(de)多樣(yang)性;3、不同(tong)(tong)時(shi)(shi)序幀(zhen)(zhen)同(tong)(tong)步(bu)進(jin)(jin)行(xing)數(shu)據(ju)樣(yang)本(ben)貼圖增強(qiang),使(shi)得(de)速度(du)、轉(zhuan)向等(deng)預測(ce)更精準(zhun)。

致勝NuScenes自動駕駛評測

本次浪(lang)潮DABNet4D算(suan)法所登(deng)頂的(de)自(zi)動駕(jia)駛(shi)NuScenes榜單,其(qi)數據集(ji)包含波士(shi)頓(dun)和新加坡兩大城(cheng)市(shi)收集(ji)的(de)大約(yue)15小(xiao)時的(de)駕(jia)駛(shi)數據,覆(fu)蓋(gai)了城(cheng)市(shi)、住(zhu)宅區(qu)(qu)、郊區(qu)(qu)、工業區(qu)(qu)各個場景(jing),也涵(han)蓋(gai)了白天(tian)(tian)、黑(hei)夜(ye)、晴天(tian)(tian)、雨天(tian)(tian)、多云等(deng)不(bu)同時段不(bu)同天(tian)(tian)氣狀況。數據采集(ji)傳(chuan)感器包括了6個相機、1個激光雷達、5個毫米(mi)波雷達、以及GPS和IMU,具(ju)備360°的(de)視野感知能力。

NuScenes數(shu)據(ju)集提供二維、三(san)維物體標注、點云分割、高精地圖等豐富的標注信息。目前,基(ji)于(yu)NuScenes數(shu)據(ju)集的評測(ce)(ce)任務(wu)(wu)主要(yao)包括3D目標檢測(ce)(ce)(3D object Detection)、3D目標跟蹤(3D object Tracking)、預測(ce)(ce)軌跡(prediction trajectories)、激(ji)光雷(lei)達分割(Lidar Segmentation)、全景分割和跟蹤(lidar Panoptic segmentation and tracking)。其中(zhong)3D目標檢測(ce)(ce)任務(wu)(wu)備受(shou)研究(jiu)者關注,自從(cong)NuScenes挑戰賽(sai)公(gong)開以(yi)來至今,已提交220余次(ci)結果。

浪潮(chao)DABNet4D算法在訓練與評(ping)測過(guo)程(cheng)中(zhong)使用(yong)的底層硬件支撐是浪潮(chao)NF5488A5 AI服務器(qi)。開發(fa)過(guo)程(cheng)中(zhong),模型在訓練集上(shang)進(jin)行(xing)(xing)單次訓練運行(xing)(xing) 20 個 epochs(without CBGS),需要耗費 約(yue)360 個 GPU 小時(shi)。

而為了(le)滿(man)足此類算法(fa)超高的(de)(de)AI算力(li)需求,浪(lang)潮(chao)信息提供集(ji)群(qun)解決方(fang)案(an),采(cai)用 Spine-Leaf 的(de)(de)結(jie)構進(jin)行節點(dian)擴(kuo)展,集(ji)成超 2000 GPU 卡(ka)集(ji)群(qun),達到 90% 的(de)(de)擴(kuo)展性。同時,該(gai)評測(ce)也(ye)是(shi)在 AIStation 的(de)(de)平臺基(ji)礎(chu)上(shang)進(jin)行開(kai)發,有效加(jia)速了(le)浪(lang)潮(chao)DABNet4D算法(fa)的(de)(de)開(kai)發與訓練。

自動駕駛技術發展撬動AI算力需求爆發

自(zi)動(dong)駕駛(shi)技術感(gan)(gan)知路(lu)線之爭一(yi)直是行業關(guan)注的(de)焦點,雖然(ran)特(te)斯(si)拉(la)純視覺方(fang)案在業內獨領風騷,但多傳感(gan)(gan)融合(he)方(fang)案被業內視為實現自(zi)動(dong)駕駛(shi)安(an)全冗(rong)余(yu)的(de)關(guan)鍵(jian)手(shou)段。

為了更好的衡量3D檢測效果(guo),其評價指標(biao)已經從原來的2D的AP已經逐漸變(bian)為AP-3D和AP-BEV。在數(shu)據集的選擇上也從KITTI逐漸變(bian)為更大(da)和更多樣(yang)的NuScenes數(shu)據集。

未來,基于LiDAR、相機(ji)等(deng)多源感(gan)(gan)知融合算法將(jiang)有力地提升(sheng)模(mo)型的檢(jian)測精度,同時(shi),Occupancy network、Nerf等(deng)先進算法模(mo)型也會逐步應用于自(zi)動駕駛感(gan)(gan)知模(mo)型的開發與訓練中。

自(zi)動(dong)駕(jia)(jia)(jia)駛(shi)(shi)數據量急劇增大(da)(da)、自(zi)動(dong)駕(jia)(jia)(jia)駛(shi)(shi)感(gan)知模型復雜度(du)逐步提(ti)升,以及模型更新頻率(lv)逐漸加快,都(dou)將(jiang)推動(dong)自(zi)動(dong)駕(jia)(jia)(jia)駛(shi)(shi)的蓬(peng)勃發展,也必然帶來更大(da)(da)的模型訓練算(suan)力需求(qiu)。

【更多研討會精(jing)彩(cai)瞬間,請訪問“視頻(pin)號-浪潮(chao)數(shu)據中心業(ye)務-12月9日直播回放】

消息來源:浪潮信息
全球TMT
微信公眾號“全球TMT”發布全球互聯網、科技、媒體、通訊企業的經營動態、財報信息、企業并購消息。掃描二維碼,立即訂閱!
關(guan)鍵詞: 汽車 互聯網技術 運輸業
collection